En un artículo de investigación centrado en la evaluación de la IA médica, Microsoft parece haber revelado "sin querer" el tamaño de los parámetros de varios modelos de lenguaje grandes (LLM) líderes en la industria. Este artículo, publicado el 26 de diciembre, no solo desvela datos sobre los parámetros de modelos de varias compañías, incluyendo OpenAI y Anthropic, sino que también ha generado un debate en el sector sobre la arquitectura de los modelos y su potencia tecnológica.

Según el artículo, el modelo o1-preview de OpenAI tiene aproximadamente 300 mil millones de parámetros, GPT-4o alrededor de 200 mil millones, mientras que GPT-4o-mini solo tiene 8 mil millones. Esto contrasta con la afirmación de Nvidia a principios de año de que GPT-4 utiliza una arquitectura MoE de 1,76 billones de parámetros. El artículo también revela que Claude3.5Sonnet tiene aproximadamente 175 mil millones de parámetros.

image.png

Esta no es la primera vez que Microsoft "filtra" información sobre los parámetros de los modelos en sus artículos. En octubre del año pasado, un artículo de Microsoft reveló que GPT-3.5-Turbo tenía 20 mil millones de parámetros, información que posteriormente se eliminó en una versión actualizada. Estas "filtraciones" repetidas han llevado a especulaciones en la industria sobre una posible intención específica.

image.png

Cabe destacar que el objetivo principal del artículo es presentar MEDEC, un conjunto de pruebas de referencia para el ámbito médico. El equipo de investigación analizó 488 notas clínicas de tres hospitales estadounidenses para evaluar la capacidad de los diferentes modelos para identificar y corregir errores en la documentación médica. Los resultados de las pruebas mostraron que Claude3.5Sonnet lideró en la detección de errores con una puntuación de 70,16.

image.png

La industria ha debatido acaloradamente sobre la veracidad de estos datos. Algunos opinan que si Claude3.5Sonnet realmente logra un rendimiento excelente con una menor cantidad de parámetros, esto destacaría la capacidad tecnológica de Anthropic. Otros analistas, basándose en el precio de los modelos, consideran que algunas estimaciones de parámetros son razonables.

image.png

Es especialmente notable que el artículo solo estime los parámetros de los modelos principales, sin mencionar los parámetros específicos de Google Gemini. Algunos analistas creen que esto podría estar relacionado con el uso de TPU en lugar de GPU de Nvidia en Gemini, lo que dificulta una estimación precisa a través de la velocidad de generación de tokens.

image.png

A medida que OpenAI reduce gradualmente su compromiso con el código abierto, la información central como el tamaño de los parámetros de los modelos probablemente seguirá siendo un foco de atención en la industria. Esta filtración inesperada ha vuelto a suscitar una profunda reflexión sobre la arquitectura de los modelos de IA, las rutas tecnológicas y la competencia comercial.

Referencias:

https://arxiv.org/pdf/2412.19260

https://x.com/Yuchenj_UW/status/1874507299303379428

https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/