智谱AI lanzó CogVideoX, un modelo de generación de video de nueva generación, que marca otro avance importante en el desarrollo de la tecnología multimodal de la empresa.

微信截图_20240726111755.png

Las características técnicas principales de CogVideoX incluyen:

  1. Estructura de autocodificador variacional tridimensional (3D VAE): Esta estructura, desarrollada de forma independiente por智谱AI, puede comprimir los datos de video originales hasta el 2% de su tamaño original, reduciendo los costos y la dificultad del entrenamiento. Combinado con el módulo de codificación posicional 3D RoPE, mejora la capacidad de captura de la relación entre fotogramas en la dimensión temporal, estableciendo relaciones de dependencia a largo plazo en el video.

  2. Modelo de comprensión de video de extremo a extremo: Mejora la comprensión del texto y el cumplimiento de las instrucciones del modelo, asegurando que el video generado se ajuste mejor a las necesidades del usuario y pueda procesar instrucciones prompt muy largas y complejas.

  3. Arquitectura Transformer de fusión tridimensional de texto, tiempo y espacio: Diseña de forma innovadora el Bloque Experto para alinear el espacio modal de texto y video, y optimiza los efectos de interacción entre modales mediante el mecanismo de Atención Completa.

El modelo CogVideoX ya está disponible en la versión de PC, la aplicación móvil y el miniaplicación de智谱清言. Los usuarios pueden experimentar gratuitamente el servicio de generación de video a partir de texto AI y generación de video a partir de imágenes a través de la función "清影" (Ying). Las principales características de 清影 incluyen una generación rápida, una capacidad de cumplimiento de instrucciones eficiente, la coherencia del contenido y la flexibilidad de la programación de imágenes.

Además, "清影" también se ha implementado en la plataforma abierta de modelos grandes de智谱, bigmodel.cn. Las empresas y los desarrolladores pueden utilizar sus funciones mediante la llamada API. 智谱AI ha verificado la eficacia de la Ley de Escalado en el campo de la generación de video y continuará expandiendo la escala de datos y la escala del modelo, investigando nuevas arquitecturas de modelos para comprimir la información de video de manera más eficiente y fusionar de manera más completa el texto y el contenido de video.

Dirección de experiencia:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu