Récemment, David Millette, un créateur YouTube du Massachusetts, a intenté une action collective contre OpenAI, affirmant que la société a utilisé des millions de transcriptions de vidéos YouTube pour entraîner ses modèles d'intelligence artificielle générative sans autorisation. Selon la plainte déposée par les avocats de Millette devant le tribunal de district des États-Unis pour le district nord de la Californie, OpenAI est accusée d'avoir secrètement transcrit ses vidéos et celles d'autres créateurs pour entraîner ses modèles ChatGPT et autres produits d'IA générative.
La plainte indique qu'OpenAI, en collectant ces données, a clairement tiré profit du travail des créateurs, ce qui viole le droit d'auteur et les conditions d'utilisation de YouTube, qui interdisent l'utilisation des vidéos pour des applications indépendantes de son service. Les avocats de Millette écrivent dans la plainte que les produits d'IA d'OpenAI sont d'autant plus précieux qu'ils utilisent des données d'entraînement obtenues sans consentement, sans crédit ni compensation.
Le cabinet d'avocats représentant Millette demande un procès devant jury et réclame plus de 5 millions de dollars de dommages et intérêts pour tous les utilisateurs et créateurs YouTube potentiellement affectés.
Il est bien connu que les modèles d'IA générative ne possèdent pas de véritable intelligence. Ils apprennent les probabilités d'apparition des données et leurs schémas en traitant un grand nombre d'échantillons de données (films, enregistrements, articles, etc.). De nombreux modèles sont entraînés à partir de sites web publics et de jeux de données en ligne. Bien que les entreprises affirment que leur collecte de données respecte le principe de « l'utilisation équitable », de nombreux détenteurs de droits d'auteur ne sont pas d'accord et intentent des poursuites pour mettre fin à cette pratique.
Les transcriptions vidéo sont devenues une donnée d'entraînement importante, surtout avec l'épuisement des autres sources de données. Selon les données d'Originality.AI, plus de 35 % des principaux sites web mondiaux ont bloqué les robots d'exploration d'OpenAI. De plus, une étude de l'initiative sur les sources de données du MIT montre qu'environ 25 % des sources de données de haute qualité sont désormais inaccessibles, ce qui rend les données d'entraînement des modèles d'IA plus rares.
Il est à noter que le modèle Whisper d'OpenAI est spécifiquement conçu pour transcrire l'audio vidéo afin de collecter davantage de données d'entraînement. Selon le New York Times, l'équipe OpenAI a transcrit plus d'un million d'heures de vidéos YouTube et utilisé ces transcriptions pour entraîner son modèle GPT-4. Cela a suscité des discussions internes sur une possible violation des règles de YouTube.
Récemment, David Millette, un créateur YouTube du Massachusetts, a intenté une action collective contre OpenAI, affirmant que la société a utilisé des millions de transcriptions de vidéos YouTube pour entraîner ses modèles d'intelligence artificielle générative sans autorisation. Selon la plainte déposée par les avocats de Millette devant le tribunal de district des États-Unis pour le district nord de la Californie, OpenAI est accusée d'avoir secrètement transcrit ses vidéos et celles d'autres créateurs pour entraîner ses modèles ChatGPT et autres produits d'IA générative.
La plainte indique qu'OpenAI, en collectant ces données, a clairement tiré profit du travail des créateurs, ce qui viole le droit d'auteur et les conditions d'utilisation de YouTube, qui interdisent l'utilisation des vidéos pour des applications indépendantes de son service. Les avocats de Millette écrivent dans la plainte que les produits d'IA d'OpenAI sont d'autant plus précieux qu'ils utilisent des données d'entraînement obtenues sans consentement, sans crédit ni compensation.
Le cabinet d'avocats représentant Millette demande un procès devant jury et réclame plus de 5 millions de dollars de dommages et intérêts pour tous les utilisateurs et créateurs YouTube potentiellement affectés.
Il est bien connu que les modèles d'IA générative ne possèdent pas de véritable intelligence. Ils apprennent les probabilités d'apparition des données et leurs schémas en traitant un grand nombre d'échantillons de données (films, enregistrements, articles, etc.). De nombreux modèles sont entraînés à partir de sites web publics et de jeux de données en ligne. Bien que les entreprises affirment que leur collecte de données respecte le principe de « l'utilisation équitable », de nombreux détenteurs de droits d'auteur ne sont pas d'accord et intentent des poursuites pour mettre fin à cette pratique.
Les transcriptions vidéo sont devenues une donnée d'entraînement importante, surtout avec l'épuisement des autres sources de données. Selon les données d'Originality.AI, plus de 35 % des principaux sites web mondiaux ont bloqué les robots d'exploration d'OpenAI. De plus, une étude de l'initiative sur les sources de données du MIT montre qu'environ 25 % des sources de données de haute qualité sont désormais inaccessibles, ce qui rend les données d'entraînement des modèles d'IA plus rares.
Il est à noter que le modèle Whisper d'OpenAI est spécifiquement conçu pour transcrire l'audio vidéo afin de collecter davantage de données d'entraînement. Selon le New York Times, l'équipe OpenAI a transcrit plus d'un million d'heures de vidéos YouTube et utilisé ces transcriptions pour entraîner son modèle GPT-4. Cela a suscité des discussions internes sur une possible violation des règles de YouTube.
Points clés :
🔍 Le YouTuber David Millette intente une action collective contre OpenAI pour utilisation non autorisée de transcriptions vidéo pour l'entraînement de l'IA.
💰 Millette réclame plus de 5 millions de dollars de dommages et intérêts au nom de tous les créateurs YouTube affectés.
🚫 Les sources de données pour les modèles d'IA générative sont soumises à des restrictions de plus en plus strictes, de nombreux sites web majeurs ayant bloqué les robots d'exploration d'OpenAI.