En el campo de la inteligencia artificial, que avanza rápidamente, los desarrolladores y las organizaciones se enfrentan a varios desafíos prácticos, como la alta demanda computacional, los problemas de latencia y la falta de modelos de código abierto verdaderamente flexibles. Estos problemas a menudo limitan el progreso; muchas soluciones existentes requieren costosas infraestructuras en la nube o son demasiado grandes para su implementación en dispositivos. Por lo tanto, existe una necesidad urgente de modelos eficientes y flexibles para llenar este vacío.

QQ_1741747624441.png

Para abordar esto, Reka AI ha lanzado Reka Flash3, un modelo de inferencia construido desde cero con 2.100 millones de parámetros. Este modelo está diseñado para admitir conversaciones generales, asistencia de codificación, seguimiento de instrucciones e incluso llamadas a funciones, convirtiéndose en una base práctica para diversas aplicaciones. Su proceso de entrenamiento combina conjuntos de datos de acceso público y conjuntos de datos sintéticos, y utiliza un cuidadoso ajuste de instrucciones y el método de aprendizaje por refuerzo REINFORCE Leave One-Out (RLOO). Este método de entrenamiento meticuloso busca lograr un equilibrio entre capacidad y eficiencia, lo que hace que Reka Flash3 destaque entre muchos modelos similares.

A nivel técnico, Reka Flash3 posee varias características que lo hacen flexible y eficiente en cuanto a recursos. Una característica notable es su capacidad para manejar una longitud de contexto de hasta 32k tokens, lo que facilita el procesamiento de documentos largos y tareas complejas sin una sobrecarga excesiva. Además, el modelo incorpora un mecanismo de "presupuesto obligatorio" mediante etiquetas específicas <reasoning>, permitiendo a los usuarios limitar los pasos del proceso de pensamiento del modelo, asegurando así un rendimiento consistente sin aumentar los costos computacionales. Simultáneamente, Reka Flash3 es ideal para la implementación en dispositivos; su tamaño de precisión completa es de 39 GB (fp16), y mediante cuantificación de 4 bits se puede comprimir aún más a 11 GB. Esta flexibilidad permite una implementación local más fluida, ofreciendo una ventaja sobre modelos más grandes e intensivos en recursos.

Los indicadores de evaluación y los datos de rendimiento confirman aún más la utilidad del modelo. Por ejemplo, aunque Reka Flash3 obtiene una puntuación de 65.0 en MMLU-Pro, un rendimiento moderado, su competitividad sigue siendo considerable al combinarlo con fuentes de conocimiento adicionales, como la búsqueda en la web. Además, la capacidad multilingüe de Reka Flash3 alcanza una puntuación COMET de 83.2 en WMT’23, mostrando un soporte razonable para entradas que no son en inglés, aunque su enfoque principal es el inglés. Estos resultados, junto con su eficiente número de parámetros en comparación con modelos similares como QwQ-32B, destacan su potencial en aplicaciones reales.

QQ_1741747656664.png

En resumen, Reka Flash3 representa una solución de inteligencia artificial más accesible. Al lograr un equilibrio inteligente entre rendimiento y eficiencia, el modelo ofrece una opción robusta y flexible para tareas de chat general, codificación e instrucciones. Su diseño compacto, la ventana de contexto mejorada de 32k tokens y el innovador mecanismo de presupuesto obligatorio lo convierten en una opción práctica para implementaciones en dispositivos y aplicaciones de baja latencia. Para investigadores y desarrolladores que buscan un modelo capaz y manejable, Reka Flash3 sin duda ofrece una base prometedora.

Introducción:https://www.reka.ai/news/introducing-reka-flash

Modelo: https://huggingface.co/RekaAI/reka-flash-3

Puntos clave:

🌟 Reka Flash3 es un modelo de inferencia de código abierto lanzado por Reka AI, con 2.100 millones de parámetros, adecuado para diversas aplicaciones.

💻 El modelo admite el procesamiento de contexto de 32k tokens, es adecuado para tareas complejas y puede ejecutarse de manera eficiente en dispositivos.

📈 Los datos de rendimiento muestran que Reka Flash3 tiene un excelente desempeño en capacidades multilingües y aplicaciones reales, siendo una solución de IA accesible.