La société de technologie d'intelligence artificielle Sync Labs a récemment annoncé sur Twitter le lancement de son dernier produit, Lipsync-2, un modèle qualifié de « premier modèle de synchronisation labiale zéro-shot au monde ». Sans entraînement ni ajustement supplémentaire, il préserve le style unique de l'orateur. Cette technologie révolutionnaire offre des améliorations significatives en termes de réalisme, d'expressivité, de contrôle, de qualité et de vitesse, et convient aux vidéos en prises de vues réelles, à l'animation et au contenu généré par l'IA.

QQ_1744092971287.png

Les caractéristiques innovantes de Lipsync-2

Selon le message Twitter publié par Sync Labs le 1er avril, le principal atout de Lipsync-2 réside dans sa capacité « zéro-shot ». Il n'a pas besoin d'être pré-entraîné pour un orateur spécifique ; le modèle apprend et génère instantanément une synchronisation labiale conforme à son style de parole unique. Cette caractéristique révolutionne les techniques traditionnelles de synchronisation labiale qui nécessitent d'énormes quantités de données d'entraînement, permettant ainsi aux créateurs de contenu d'utiliser cette technologie plus efficacement.

De plus, Sync Labs a révélé que Lipsync-2 a réalisé des progrès technologiques significatifs à plusieurs niveaux. Que ce soit pour des vidéos en prises de vues réelles, des personnages animés ou des personnages générés par l'IA, Lipsync-2 offre un réalisme et une expressivité accrus.

Nouvelle fonction de contrôle : paramètre de température

En plus de la capacité zéro-shot, Lipsync-2 introduit une fonction de contrôle appelée « température ». Ce paramètre permet aux utilisateurs de régler le degré de synchronisation labiale, d'un effet naturel et simple à un effet plus expressif et exagéré, pour répondre aux besoins de différents scénarios. Actuellement, cette fonction est en phase de test privé et n'est progressivement accessible qu'aux utilisateurs payants.

Perspectives d'application : éducation multilingue et création de contenu

Dans un message Twitter du 3 avril, Sync Labs a présenté les applications potentielles de Lipsync-2, affirmant qu'il « excelle en termes de précision, de style et d'expressivité » et présentant la vision de « permettre à chaque conférence d'être présentée dans chaque langue ». Cette technologie peut non seulement être utilisée pour la traduction vidéo et l'édition au niveau du mot, mais aussi pour la réanimation de personnages, et même pour la création de contenu généré par les utilisateurs (UGC) réaliste, révolutionnant ainsi les secteurs de l'éducation, du divertissement et du marketing.

Réactions du secteur et attentes futures

Le lancement de Lipsync-2 a rapidement suscité l'intérêt du secteur. Sync Labs a indiqué que le modèle était accessible sur la plateforme fal, les utilisateurs pouvant explorer la bibliothèque de modèles de fal. Depuis son annonce le 1er avril, les discussions sur Lipsync-2 sur Twitter n'ont cessé de prendre de l'ampleur, de nombreux utilisateurs exprimant leurs attentes quant à son potentiel d'applications intersectorielles.

En tant qu'entreprise pionnière dans le domaine de la technologie vidéo d'intelligence artificielle, Sync Labs prouve une fois de plus son leadership en matière d'innovation avec Lipsync-2. Avec la promotion progressive de cette technologie, le seuil de création de contenu pourrait être abaissé, tandis que les spectateurs bénéficieront d'une expérience audiovisuelle plus naturelle et immersive.