El modelo de IA de código abierto Reflection70B, recientemente lanzado, ha sido objeto de amplias dudas en la industria.

Este modelo, publicado por la startup neoyorquina HyperWrite, se autodefine como una variante del Llama3.1 de Meta y había llamado la atención por su excelente rendimiento en pruebas de terceros. Sin embargo, con la publicación de algunos resultados de pruebas, la reputación de Reflection70B comenzó a ser cuestionada.

El incidente comenzó cuando Matt Shumer, cofundador y CEO de HyperWrite, anunció Reflection70B el 6 de septiembre en la red social X, afirmándolo con confianza como el "modelo de código abierto más potente del mundo".

image.png

Shumer también compartió información sobre la técnica de "ajuste reflexivo" del modelo, afirmando que este método permite al modelo auto-revisarse antes de generar contenido, mejorando así su precisión.

Sin embargo, al día siguiente del anuncio de HyperWrite, la organización Artificial Analysis, dedicada al "análisis independiente de modelos de IA y proveedores de alojamiento", publicó su propio análisis en X, indicando que la puntuación MMLU (Massive Multitask Language Understanding) de Reflection Llama3.170B que evaluaron era la misma que la de Llama370B, pero significativamente inferior a la de Llama3.170B de Meta. Esto difiere significativamente de los resultados iniciales publicados por HyperWrite/Shumer.

image.png

Shumer posteriormente declaró que los pesos (o la configuración del modelo de código abierto) de Reflection70B tuvieron problemas durante la carga en Hugging Face (repositorio y empresa de alojamiento de código de IA de terceros), lo que podría haber provocado un rendimiento inferior al de la versión de la "API interna" de HyperWrite.

Artificial Analysis declaró posteriormente que habían obtenido acceso a la API privada y habían visto un rendimiento impresionante, pero no al nivel de las afirmaciones iniciales. Debido a que esta prueba se realizó en la API privada, no pudieron verificar de forma independiente el contenido que estaban probando.

La organización planteó dos preguntas clave que cuestionan seriamente las afirmaciones de rendimiento iniciales de HyperWrite y Shumer:

  • ¿Por qué la versión publicada no es la versión probada a través de la API privada de Reflection?
  • ¿Por qué los pesos del modelo de la versión probada aún no se han publicado?

Al mismo tiempo, varios usuarios de las comunidades de aprendizaje automático e IA en Reddit también cuestionaron el rendimiento declarado y el origen de Reflection70B. Algunos señalaron que, según las comparaciones de modelos publicadas por terceros en Github, Reflection70B parece ser una variante de Llama3, no de Llama-3.1, lo que genera más dudas sobre las afirmaciones iniciales de Shumer y HyperWrite.

Esto llevó a que al menos un usuario de X, Shin Megami Boson, acusara públicamente a Shumer de "fraude" en la comunidad de investigación de IA el 8 de septiembre a las 8:07 pm, hora del este, y publicara una larga lista de capturas de pantalla y otras pruebas.

image.png

Otros acusaron al modelo de ser en realidad un "envoltorio" o aplicación construida sobre Claude3 de Anthropic, un competidor de código propietario/cerrado.

Sin embargo, otros usuarios de X salieron en defensa de Shumer y Reflection70B, y algunos también publicaron el impresionante rendimiento del modelo en sus pruebas.

Actualmente, la comunidad de investigación de IA está a la espera de la respuesta de Shumer a estas acusaciones de fraude y de los pesos actualizados del modelo en Hugging Face.

🚀 Tras su lanzamiento, el rendimiento del modelo Reflection70B ha sido cuestionado, ya que los resultados de las pruebas no han podido reproducir el rendimiento inicialmente afirmado.

⚙️ El fundador de HyperWrite explicó que los problemas de carga del modelo provocaron una disminución del rendimiento, e instó a prestar atención a la versión actualizada.

👥 El debate sobre el modelo en las redes sociales es intenso, con acusaciones y defensas, creando una situación compleja.