Beijing Zhipu Huazhang Technology Co., Ltd. anunció una serie de importantes actualizaciones tecnológicas el 29 de agosto de 2024, incluyendo el lanzamiento de un modelo base de nueva generación y nuevos servicios de aplicación.
En la conferencia KDD2024, Zhipu lanzó una nueva generación de modelos base, incluyendo el modelo de lenguaje GLM-4-Plus, el modelo de generación de imágenes a partir de texto CogView-3-Plus, el modelo de comprensión de imágenes/vídeo GLM-4V-Plus y el modelo de generación de vídeo CogVideoX. Estos modelos han alcanzado un nivel líder a nivel internacional en sus respectivos campos.
El modelo GLM-4-Plus ha mejorado significativamente su rendimiento en comprensión del lenguaje, seguimiento de instrucciones y procesamiento de textos largos, situándose a la par de modelos de primera línea como GPT-4o. El modelo CogView-3-Plus utiliza la arquitectura Transformer en lugar de la arquitectura UNet tradicional, optimizando los resultados del modelo y alcanzando un rendimiento cercano a modelos de primer nivel como MJ-V6 y FLUX. El modelo GLM-4V-Plus cuenta con una capacidad de comprensión de imágenes y vídeo de alta calidad, convirtiéndose en la primera API de comprensión de vídeo general en China. El modelo CogVideoX, tras el lanzamiento de la versión 2B, ha abierto aún más la versión 5B, mejorando su rendimiento y convirtiéndose en uno de los mejores modelos de generación de vídeo de código abierto actuales.
Además, Zhipu ha lanzado en la aplicación "Qingyan APP" el primer servicio de videollamada para usuarios finales en China. Este servicio abarca las modalidades de texto, audio y vídeo, y cuenta con capacidad de inferencia en tiempo real, ofreciendo a los usuarios una experiencia de interacción fluida.
Zhipu también anunció el uso gratuito de la API GLM-4-Flash, que ofrece ventajas en velocidad y rendimiento, permitiendo a los usuarios construir modelos y aplicaciones exclusivas de forma rápida y gratuita. Al mismo tiempo, para satisfacer las necesidades de diferentes usuarios, Zhipu ofrece la función de ajuste fino del modelo.
Zhipu afirma que continuará avanzando para que las máquinas piensen como las personas, ofreciendo a los usuarios tecnología y servicios más avanzados.
Actualizaciones principales:
Modelo base de lenguaje GLM-4-Plus: Ha mejorado significativamente su rendimiento en comprensión del lenguaje, seguimiento de instrucciones y procesamiento de textos largos, manteniendo su liderazgo internacional.
Modelo base de generación de imágenes a partir de texto CogView-3-Plus: Ofrece un rendimiento comparable a los mejores modelos actuales, como MJ-V6 y FLUX.
Modelo base de comprensión de imágenes/vídeo GLM-4V-Plus: Ofrece una excelente capacidad de comprensión de imágenes y una capacidad de comprensión de vídeo basada en la percepción temporal. Este modelo estará disponible en la plataforma abierta (bigmodel.cn) y se convertirá en la primera API de comprensión de vídeo general en China.
Modelo base de generación de vídeo CogVideoX: Tras el lanzamiento y la apertura del código fuente de la versión 2B, la versión 5B también se ha abierto oficialmente, mejorando aún más su rendimiento y convirtiéndose en la mejor opción entre los modelos de generación de vídeo de código abierto actuales.
Videollamada en "Qingyan APP": El primer servicio de videollamada abierto para usuarios finales en China. La función de videollamada de "Qingyan APP" abarca las modalidades de texto, audio y vídeo, y cuenta con capacidad de inferencia en tiempo real.
API GLM-4-Flash: El servicio de inferencia es totalmente gratuito y ofrece servicio de ajuste fino.
Enlace de solicitud del servicio de videollamada:
https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf