Beijing Zhihu Hua Zhang Technology Co., Ltd. anunció el 16 de enero de 2025 el lanzamiento de una serie de nuevos modelos, disponibles en bigmodel.cn. Tras el lanzamiento de "Zhispu Qingyan" en agosto, la compañía ha profundizado en la exploración de la comprensión y generación de lenguaje, voz, imágenes y vídeo, lanzando modelos multimodales como GLM-Voice, GLM-4V, CogView y CogVideoX.

El nuevo modelo de extremo a extremo GLM-Realtime, lanzado en esta ocasión, permite la comprensión de vídeo y la interacción de voz con baja latencia. Incorpora una función de canto y admite una memoria de hasta 2 minutos, además de la función Function Call. La compañía también ha actualizado simultáneamente los modelos GLM-4-Air y GLM-4V-Plus, con el objetivo de ofrecer soluciones de modelos lingüísticos con la mejor relación precio-rendimiento del sector. Zhihu se compromete a devolver a la sociedad los avances en la tecnología de modelos grandes, y ha creado específicamente el modelo multi-modal gratuito Flash, que abarca varios escenarios como lenguaje, generación de imágenes a partir de texto, generación de vídeo a partir de texto y comprensión de imágenes, para ayudar a los desarrolladores a innovar fácilmente en sus aplicaciones.

微信截图_20250116150923.png

GLM-Realtime tiene una capacidad de memoria de 2 minutos en videollamadas y, en cuanto a la interacción de voz, ha implementado innovadoramente una función de canto, lo que permite al modelo grande cantar durante una conversación. La compañía ha integrado la API de Realtime en gafas inteligentes y muñecos de compañía para que los usuarios puedan experimentar una interacción con asistentes inteligentes casi en tiempo real. Realtime también admite la función Function Call, lo que le permite utilizar su propio conocimiento y capacidades para llamar de forma flexible a conocimientos y herramientas externas, expandiéndose a escenarios comerciales más amplios. La API de GLM-Realtime ya está disponible en la plataforma abierta de Zhihu, bigmodel.cn, y actualmente es de uso gratuito.

GLM-4-Air ha sido muy popular entre los desarrolladores desde su lanzamiento debido a su excelente relación calidad-precio. En esta ocasión, se ha actualizado completamente a GLM-4-Air-0111. Mediante la optimización de los datos y el proceso de entrenamiento, su rendimiento en algunas dimensiones se acerca al de GLM-4-Plus, que es de mayor escala, mientras que el precio del modelo se ha reducido al 50%, lo que reduce el umbral de aplicación de los modelos grandes. El modelo de comprensión visual GLM-4V-Plus también se ha actualizado completamente. La nueva versión ha mejorado significativamente en varias listas de clasificación públicas, admite la función de resolución variable, se adapta a la entrada de imágenes de diferentes tamaños, reduce significativamente el consumo de tokens en escenas con imágenes pequeñas, admite el reconocimiento sin pérdidas de imágenes de 4K ultra HD y de relación de aspecto extremadamente larga, y tiene una capacidad de comprensión de vídeo de hasta 2 horas, proporcionando una solución eficiente y precisa para la comprensión y el análisis de vídeos largos.

Zhihu se dedica a la democratización de los modelos grandes y, para ayudar a los desarrolladores a innovar, ha creado una API de modelos Flash gratuitos para toda la sociedad. Como la primera serie de modelos gratuitos multimodales del sector, los desarrolladores pueden utilizar gratuitamente las funciones de lenguaje, comprensión multimodal y generación multimodal. Recientemente, la serie Flash se actualizará completamente, incluyendo el modelo lingüístico GLM-4-Flash, el modelo de comprensión de imágenes GLM-4V-Flash, el modelo de generación de imágenes CogView-3-Flash y el modelo de generación de vídeo CogVideoX-Flash.