智谱AI lanzó CogVideoX, un modelo de generación de video de nueva generación, que marca otro avance importante en el desarrollo de la tecnología multimodal de la empresa.
Las características técnicas principales de CogVideoX incluyen:
Estructura de autocodificador variacional tridimensional (3D VAE): Esta estructura, desarrollada de forma independiente por智谱AI, puede comprimir los datos de video originales hasta el 2% de su tamaño original, reduciendo los costos y la dificultad del entrenamiento. Combinado con el módulo de codificación posicional 3D RoPE, mejora la capacidad de captura de la relación entre fotogramas en la dimensión temporal, estableciendo relaciones de dependencia a largo plazo en el video.
Modelo de comprensión de video de extremo a extremo: Mejora la comprensión del texto y el cumplimiento de las instrucciones del modelo, asegurando que el video generado se ajuste mejor a las necesidades del usuario y pueda procesar instrucciones prompt muy largas y complejas.
Arquitectura Transformer de fusión tridimensional de texto, tiempo y espacio: Diseña de forma innovadora el Bloque Experto para alinear el espacio modal de texto y video, y optimiza los efectos de interacción entre modales mediante el mecanismo de Atención Completa.
El modelo CogVideoX ya está disponible en la versión de PC, la aplicación móvil y el miniaplicación de智谱清言. Los usuarios pueden experimentar gratuitamente el servicio de generación de video a partir de texto AI y generación de video a partir de imágenes a través de la función "清影" (Ying). Las principales características de 清影 incluyen una generación rápida, una capacidad de cumplimiento de instrucciones eficiente, la coherencia del contenido y la flexibilidad de la programación de imágenes.
Además, "清影" también se ha implementado en la plataforma abierta de modelos grandes de智谱, bigmodel.cn. Las empresas y los desarrolladores pueden utilizar sus funciones mediante la llamada API. 智谱AI ha verificado la eficacia de la Ley de Escalado en el campo de la generación de video y continuará expandiendo la escala de datos y la escala del modelo, investigando nuevas arquitecturas de modelos para comprimir la información de video de manera más eficiente y fusionar de manera más completa el texto y el contenido de video.
Dirección de experiencia:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu