Arcee AI lanzó hoy SuperNova, un modelo de lenguaje de 70 mil millones de parámetros diseñado para que las empresas lo implementen, con capacidades avanzadas de seguimiento de instrucciones y opciones de personalización completa. Este modelo está destinado a ofrecer a las empresas una alternativa robusta y propia en cuanto a privacidad de datos, estabilidad del modelo y personalización, abordando problemas clave de los servicios basados en API como OpenAI y Anthropic.
En el campo de la IA dominado por las API en la nube, Arcee AI adopta un enfoque diferente con SuperNova. Este gran modelo de lenguaje (LLM) se puede implementar y personalizar dentro de la propia infraestructura de la empresa. Lanzado hoy, SuperNova se basa en la arquitectura Llama-3.1-70B-Instruct de Meta y emplea un novedoso proceso de entrenamiento posterior que, según Arcee, proporciona una capacidad superior de seguimiento de instrucciones y adaptación a las necesidades específicas del negocio.
Innovación tecnológica
El desarrollo de SuperNova implicó múltiples métodos de entrenamiento posterior.
El ingeniero jefe del proyecto, Lucas Atkins, reveló el secreto: "Entrenamos tres modelos: uno destilado de la esencia de Llama405B, otro alimentado con el conjunto de datos generado por nuestro EvolKit, y otro profundamente modificado con DPO en Llama3instruct. Finalmente, los fusionamos con una nueva magia, conservando los superpoderes de cada modelo."
Arcee afirma que esto ha dado lugar a la capacidad de SuperNova para seguir instrucciones, especialmente la destilación del modelo de 405B parámetros, lo que demuestra que SuperNova puede capturar la esencia de modelos más grandes mientras mantiene una implementación de hardware moderada.
Implementación y personalización empresarial
SuperNova está diseñado para implementarse en el propio entorno en la nube de la empresa, estando inicialmente disponible en AWS Marketplace. Arcee también está trabajando para que esté disponible en los marketplaces de Google y Azure.
El cofundador de Arcee AI, Mark McQuade, destacó los beneficios de este método de implementación: "El modelo se implementa en tu VPC de AWS, pero también inicia un servidor web, una interfaz de chat y una base de datos para almacenar tu historial de chat. Cada persona en la organización puede interactuar con él íntimamente."
Esta forma de implementación aborda las preocupaciones de las empresas sobre la privacidad de los datos y la estabilidad del modelo. A diferencia de los servicios basados en API que pueden cambiar sin previo aviso, SuperNova ofrece a las empresas un control total. McQuade señala que esto es especialmente importante dada la reciente agitación en la industria de la IA: "OpenAI acaba de abandonar el 3.5... muchas empresas han construido negocios en torno a la API del 3.5. Así que, cuando esa API cambia, tu aplicación deja de funcionar. Pero en nuestro mundo, nada cambia a menos que tú quieras que cambie, porque es tu modelo, tu forma de ejecutarlo."
Personalización y mejora continua
Un gran atractivo de SuperNova es su capacidad para ser ajustado y reentrenado en el entorno empresarial.
Atkins explicó este proceso y sus beneficios: "Con el tiempo, podemos volver a entrenar completamente el modelo en tu propio entorno para que se ajuste mejor a tus preferencias. A medida que guardamos estas conversaciones, si deseas que el modelo mejore completamente según las preferencias únicas de tu empresa, tenemos la capacidad de hacerlo sin que los datos salgan de tu sistema."
Esta capacidad permite a los equipos técnicos adaptar el modelo al conocimiento de un dominio específico o a los requisitos particulares de la empresa. Esto representa una gran ventaja en comparación con los servicios basados en API en la nube que generalmente no permiten este nivel de personalización.
Componentes de código abierto
Si bien el modelo completo de 70B parámetros no es de código abierto, Arcee está lanzando varios componentes para la comunidad de desarrolladores:
API gratuita para pruebas y evaluación: esto permite a los desarrolladores probar SuperNova sin comprometerse con una implementación completa.
SuperNova-Lite: un modelo de código abierto de 8B parámetros. Este modelo más pequeño puede ser útil para desarrolladores que trabajan en entornos con recursos limitados o para aquellos que desean comprender la arquitectura antes de implementar el modelo completo.
EvolKit: su canalización de generación de conjuntos de datos para crear pares de preguntas y respuestas complejos. Esta herramienta puede ser muy valiosa para las organizaciones que deseen crear datos de entrenamiento personalizados para sus casos de uso específicos.
Al liberar estos componentes, Arcee contribuye a la comunidad de IA más amplia y, al mismo tiempo, proporciona a los clientes potenciales herramientas para evaluar y personalizar su producto. Arcee SuperNova también está disponible en AWS Marketplace.
Declaraciones de rendimiento y pruebas de referencia
Arcee afirma que SuperNova tiene un buen rendimiento en varias áreas, especialmente en el razonamiento matemático. "Atkins señala: "Este destaca en las pruebas de referencia matemáticas". Sin embargo, la empresa anima a las evaluaciones de terceros para verificar sus afirmaciones.
"Proporcionaremos una API para que la gente la utilice. Si algún tercero desea ejecutar pruebas de referencia confiables para evaluar por sí mismo, podemos coordinar para proporcionarles acceso a los pesos. Queremos tener una transparencia total con este modelo", dice Atkins.
Esta apertura a las evaluaciones de terceros es encomiable, ya que permite la verificación independiente de las afirmaciones de Arcee. Será especialmente interesante ver cómo se desempeña SuperNova en las pruebas de referencia estándar en comparación con los modelos de empresas líderes en IA como OpenAI y Anthropic.
Impacto en la estrategia de IA empresarial
El lanzamiento de SuperNova se produce en un momento en que muchas empresas están reevaluando sus estrategias de IA. Si bien los servicios basados en API en la nube han dominado este campo, el interés en los modelos implementables y personalizables que ofrecen mayor control y flexibilidad está creciendo.
El enfoque de SuperNova aborda varios problemas clave:
- Privacidad de datos: al implementarse dentro de la propia infraestructura de la empresa, SuperNova garantiza que los datos sensibles nunca abandonen el control de la organización.
- Estabilidad del modelo: a diferencia de los servicios basados en API que pueden cambiar o quedar obsoletos sin previo aviso, SuperNova proporciona una base estable que solo cambia cuando la organización elige actualizarla.
- Personalización: la capacidad de ajustar y volver a entrenar el modelo en datos específicos de la empresa permite una personalización profunda que la mayoría de los servicios basados en API no pueden lograr.
- Control de costos: aunque la implementación inicial puede requerir recursos considerables, el costo a largo plazo de ejecutar SuperNova puede ser menor que el de pagar a gran escala las llamadas a la API.
- Ventaja competitiva: un modelo de IA personalizado y en mejora continua puede proporcionar una ventaja competitiva significativa en las industrias donde las ideas impulsadas por la IA son cruciales.
El dilema de la soberanía de la IA
A medida que las empresas navegan por el campo en rápida evolución de la IA, el lanzamiento de SuperNova pone de manifiesto una tensión creciente en la industria: la compensación entre la comodidad y la capacidad de los servicios de IA basados en la nube y el control y la personalización que ofrecen los modelos implementables. Esta dicotomía plantea lo que podríamos llamar el "dilema de la soberanía de la IA".
Por un lado, los servicios basados en API en la nube como GPT-4 y Claude ofrecen un rendimiento de vanguardia y actualizaciones continuas, pero a costa de problemas de privacidad de datos y personalización limitada. Por otro lado, los modelos como SuperNova prometen un control y una personalización completos, pero requieren experiencia interna para su implementación y mantenimiento.
El enfoque que Arcee adopta con SuperNova intenta cerrar esta brecha, ofreciendo un modelo que se puede implementar localmente y que, al mismo tiempo, proporciona capacidades destinadas a rivalizar con los principales servicios basados en la nube. Este enfoque híbrido puede resultar especialmente atractivo para las industrias con estrictos requisitos regulatorios o aquellas que manejan datos altamente sensibles.
Blog oficial: https://blog.arcee.ai/meet-arcee-supernova-our-flagship-70b-model-alternative-to-openai/