Lors du récent sommet sur la technologie du cloud vidéo, Bytedance a annoncé une innovation majeure : une solution de prétraitement vidéo pour l'entraînement de grands modèles. Cette technologie a déjà été appliquée avec succès au modèle de génération vidéo Doubao, marquant une avancée significative dans la technologie de génération de vidéos par IA.

Tan Dai, président de Bytedance, a souligné que l'AIGC et les technologies multimodales sont en train de transformer profondément l'expérience utilisateur. Fort de l'expérience pratique de Douyin, Bytedance explore activement l'intégration des grands modèles d'IA et des technologies vidéo pour offrir des solutions complètes aux entreprises.

Wang Yue, responsable de l'architecture vidéo du groupe Douyin, a indiqué que l'entraînement des grands modèles présente de nombreux défis, notamment : le coût élevé du traitement d'énormes quantités de données, la qualité inégale des échantillons, la complexité de la chaîne de traitement et les problèmes d'ordonnancement de diverses ressources de calcul hétérogènes.

Pour relever ces défis, la solution de prétraitement développée par Bytedance s'appuie sur son framework de traitement multimédia BMF et sur les ressources de calcul diversifiées d'Intel. Cette solution, optimisée aux niveaux algorithmique et ingénierie, permet de traiter efficacement d'énormes quantités de données vidéo et d'améliorer considérablement l'efficacité de l'entraînement des modèles.

De plus, Bytedance a également open-sourcé la version lite de BMF, une solution de post-traitement mobile, qui prend en charge l'intégration de grands modèles côté client et l'accélération des opérateurs, pour une solution plus légère et plus universelle.

Il est à noter que le modèle de génération vidéo Doubao PixelDance, lancé le 24 septembre, utilise déjà cette solution technique. Ce modèle, basé sur l'architecture DiT, surmonte les difficultés liées à l'interaction complexe des mouvements de plusieurs sujets et à la cohérence du contenu entre les différents plans. Actuellement, le modèle de génération vidéo Doubao est proposé en accès anticipé aux entreprises via Bytedance.