Tras DeepSeek R1, el equipo de Alibaba Cloud Tongyi Qianwen acaba de anunciar su último modelo de código abierto,
Esta versión de Qwen2.5-1M incluye dos modelos de código abierto:
Tras DeepSeek R1, el equipo de Alibaba Cloud Tongyi Qianwen acaba de anunciar su último modelo de código abierto,
Esta versión de Qwen2.5-1M incluye dos modelos de código abierto:
En el campo de la inteligencia artificial, las técnicas de post-entrenamiento se están convirtiendo en una herramienta clave para mejorar el rendimiento de los modelos. Recientemente, el Instituto de Inteligencia Artificial Allen (AI2) ha publicado la serie de modelos Tülu3, un conjunto de modelos de lenguaje avanzados completamente de código abierto, con un rendimiento comparable a modelos propietarios como GPT-4o-mini. Tülu3 incluye no solo los datos del modelo, el código y las recetas de entrenamiento, sino también un marco de evaluación, con el objetivo de impulsar el desarrollo de técnicas de post-entrenamiento para modelos de código abierto. Tradicionalmente, los modelos que solo han sido pre-entrenados a menudo no satisfacen las necesidades de las aplicaciones reales de manera efectiva, pudiendo...
El Instituto de Inteligencia Artificial Allen (AI2) ha lanzado OLMoE, un modelo de lenguaje grande de código abierto diseñado para ofrecer un alto rendimiento a bajo coste. Este modelo utiliza una arquitectura de expertos mixtos dispersos (MoE), con 7 mil millones de parámetros, pero mediante un mecanismo de enrutamiento inteligente, cada token de entrada solo utiliza 1 mil millones de parámetros, lo que permite un cálculo eficiente. OLMoE incluye versiones de ajuste general e instrucciones, y admite una ventana de contexto de 4096 tokens. Sus datos de entrenamiento provienen de diversas fuentes, incluyendo Common Crawl, Dolma CC y Wikipedia.
FLUX.1, una plataforma de modelos grandes de código abierto desarrollada por el experto en generación de imágenes con IA Robin Rombach, utiliza una arquitectura Vision Transformer de 12.000 millones de parámetros, entrenamiento de coincidencia de flujo y técnicas de incrustación de posición rotacional, superando considerablemente a modelos cerrados como DALL·E 3, Midjourney V6 y la serie SD3. En cuanto a rendimiento, FLUX.1 destaca en la reproducción semántica de texto, calidad de imagen, coherencia de movimiento, coherencia y diversidad, incluso en la generación de texto...
El modelo Llama 3.1, publicado por Meta AI, compite en rendimiento con los modelos propietarios de primer nivel, lo que supone un gran avance para la IA de código abierto. Se trata de un modelo lingüístico grande de nueva generación, respaldado por una pila de entrenamiento optimizada y recursos de computación GPU a gran escala, que presenta varias características destacadas. Entre ellas, se incluye una longitud de contexto ampliada a 128 K, compatibilidad con 8 idiomas y un rendimiento excepcional en diversas áreas de prueba. Mediante un proceso iterativo de post-entrenamiento, el modelo mejora continuamente su rendimiento, especialmente en el seguimiento de instrucciones, la coherencia y la traducción entre múltiples idiomas.