Marco de entrenamiento de modelos grandes Megatron-LLaMA, de código abierto, desarrollado conjuntamente por Taobao Group y Ai Cheng Technology

机器之心

Publicado elNoticias de IA · 2 minutos de lectura · Sep 13, 2023

Taotian Group, en colaboración con Ai Cheng Technology, ha lanzado como código abierto el framework de entrenamiento de modelos grandes Megatron-LLaMA. Su objetivo es mejorar el rendimiento del entrenamiento de modelos de lenguaje grandes, reducir los costes de entrenamiento y mantener la compatibilidad con la comunidad LLaMA. El framework logra una aceleración del 176% en el entrenamiento con 32 tarjetas, mostrando además una alta tolerancia a la inestabilidad de la red. Megatron-LLaMA se centrará en la selección óptima de configuraciones adaptativas, el soporte para modificaciones en la estructura del modelo y soluciones de entrenamiento de alto rendimiento en diferentes entornos de hardware.

季逸超， fundador de Manus: Manus se basa en el modelo de lenguaje grande Qwen de Alibaba

Manus, el producto Agente de IA lanzado recientemente por la startup china Monica, ha generado un gran revuelo en la plataforma X. Hoy, su fundador, Ji Yichao, ha revelado más detalles técnicos a través de las redes sociales. Según Ji Yichao, Manus está desarrollado con el modelo de lenguaje grande Qwen de Alibaba y utiliza varios modelos ajustados para lograr sus funciones únicas. Esta noticia no solo ha generado debate en la industria sobre el origen de la tecnología de Manus, sino que también ha incrementado el interés de la comunidad global de IA en su potencial. Ji Yichao

Plataforma Nacional de Internet de Supercomputación se integra con el modelo de lenguaje grande Qwen de Alibaba: API QwQ-32B disponible

Según los informes, la Plataforma Nacional de Internet de Supercomputación ha anunciado la integración con el modelo de lenguaje grande Qwen de Alibaba, ofreciendo oficialmente el servicio API de QwQ-32B. Los usuarios pueden obtener hasta 1 millón de tokens de forma gratuita al utilizar este servicio, lo que representa una excelente oportunidad para desarrolladores e investigadores. QwQ-32B es el último modelo de inferencia de código abierto del equipo de Alibaba Qwen, con un rendimiento excepcional. Según varios datos de evaluación autorizados, la capacidad de QwQ-32B es comparable a la del modelo de 671B a plena capacidad.

Noticias de IA

Marco de entrenamiento de modelos grandes Megatron-LLaMA, de código abierto, desarrollado conjuntamente por Taobao Group y Ai Cheng Technology

机器之心

Noticias de IA relacionadas recomendadas

季逸超， fundador de Manus: Manus se basa en el modelo de lenguaje grande Qwen de Alibaba

¡En solo cuatro semanas! Foxconn lanza FoxBrain, su modelo de lenguaje grande en chino

Plataforma Nacional de Internet de Supercomputación se integra con el modelo de lenguaje grande Qwen de Alibaba: API QwQ-32B disponible

Babel, el modelo de lenguaje grande de código abierto de Alibaba, admite 25 idiomas y empodera al 90% de la población mundial