智谱AI recientemente lanzó su último modelo base GLM-4-Plus, mostrando una poderosa capacidad visual comparable a la de OpenAI GPT-4, y anunció que estará disponible a partir del 30 de agosto. Este avance innovador no solo marca un salto en la tecnología de IA nacional, sino que también brinda a los usuarios una experiencia inteligente sin precedentes.

Aspectos destacados de la actualización principal:

  • Modelo de lenguaje base GLM-4-Plus: Ha logrado un salto cualitativo en el análisis del lenguaje, la ejecución de instrucciones y el procesamiento de textos largos, manteniendo una posición de liderazgo en la competencia internacional.

  • Modelo de generación de imágenes CogView-3-Plus: Su rendimiento es comparable al de los modelos líderes en la industria, MJ-V6 y FLUX.

  • Modelo de comprensión de imágenes/vídeo GLM-4V-Plus: No solo destaca en la comprensión de imágenes, sino que también cuenta con la capacidad de comprensión de vídeo basada en el análisis de series temporales. Este modelo estará disponible próximamente en la plataforma abierta bigmodel.cn, convirtiéndose en la primera API de comprensión de vídeo generalizada de China.

  • Modelo de generación de vídeo CogVideoX: Tras el lanzamiento y la publicación de código abierto de la versión 2B, la versión 5B también se ha publicado oficialmente de código abierto, con un rendimiento significativamente mejorado, convirtiéndose en uno de los mejores modelos de generación de vídeo de código abierto.

  • Las descargas acumuladas de los modelos de código abierto de Zhishu superan los 20 millones, contribuyendo significativamente al florecimiento de la comunidad de código abierto.

image.png

GLM-4-Plus destaca en varios campos clave. En cuanto a la capacidad lingüística, el modelo ha alcanzado un nivel internacionalmente líder en comprensión, seguimiento de instrucciones y procesamiento de textos largos, con un rendimiento comparable al de GPT-4 y Llama3.1 con 405B parámetros. Cabe destacar que GLM-4-Plus, mediante una estrategia precisa de mezcla de datos de texto corto y largo, ha mejorado significativamente el efecto de razonamiento de textos largos.

image.png

En el campo de la inteligencia visual, GLM-4V-Plus muestra una excelente capacidad de comprensión de imágenes y vídeo. No solo posee capacidad de percepción temporal, sino que también puede procesar y comprender contenido de vídeo complejo. Cabe destacar que este modelo se lanzará en la plataforma abierta de Zhishu, convirtiéndose en la primera API de comprensión de vídeo generalizada de China, proporcionando una poderosa herramienta para desarrolladores e investigadores.

image.png

Por ejemplo, si le proporcionas un vídeo y le preguntas qué hizo el jugador con camiseta verde durante todo el vídeo, puede describir con precisión las acciones del jugador y decirte exactamente en qué segundo se encuentran los momentos más destacados del vídeo:

image.png

Captura de pantalla de la versión oficial

Zhishu AI también ha logrado avances innovadores en el campo de la generación. CogView-3-Plus se acerca al rendimiento óptimo actual de modelos como MJ-V6 y FLUX en la generación de imágenes a partir de texto. Al mismo tiempo, el modelo de generación de vídeo CogVideoX ha lanzado una versión 5B con mayor rendimiento, considerada la mejor opción entre los modelos de generación de vídeo de código abierto actuales.

image.png

Lo más esperado es que la aplicación Qingyan de Zhishu lanzará próximamente la función de "videollamada", la primera función de videollamada de IA abierta al público en China. Esta función abarca tres modalidades principales: texto, audio y vídeo, y cuenta con capacidad de razonamiento en tiempo real. Los usuarios pueden mantener conversaciones fluidas con la IA, y la IA puede responder rápidamente incluso con interrupciones frecuentes.

Lo que es aún más sorprendente es que, con solo encender la cámara, la IA puede ver y comprender lo que el usuario está viendo, y ejecutar con precisión las instrucciones de voz.

Esta revolucionaria función de videollamada se lanzará el 30 de agosto, inicialmente para algunos usuarios de Qingyan, y se aceptarán solicitudes externas. Esta innovación no solo muestra la capacidad tecnológica de Zhishu AI, sino que también abre nuevas posibilidades para la integración profunda de la inteligencia artificial en la vida cotidiana.

Referencias: https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w