Derrière le développement fulgurant de l'intelligence artificielle, certains géants de la technologie ont secrètement recours à des méthodes controversées. Non seulement ils « pompent » des données de livres, de sites web, de photos et de publications sur les réseaux sociaux, mais ils utilisent également massivement des vidéos YouTube pour entraîner leurs modèles d'IA, et ce, sans le consentement des créateurs.

Qui a utilisé mes vidéos ?

Selon une enquête de Proof News, des géants de la Silicon Valley, dont Anthropic, Nvidia, Apple et Salesforce, ont utilisé les données de sous-titres de 173 536 vidéos YouTube pour entraîner leur IA. Ces vidéos proviennent de plus de 48 000 chaînes, bien que YouTube interdise formellement le scraping de contenu sans autorisation.

youtube

Ces ensembles de données, appelés « YouTube Subtitles », contiennent les sous-titres de vidéos provenant de chaînes éducatives et d'apprentissage en ligne telles que Khan Academy, le MIT et Harvard. Des vidéos du Wall Street Journal, de NPR et de la BBC ont également été utilisées pour entraîner l'IA, ainsi que des émissions comme le « Stephen Colbert Late Show », le « John Oliver Last Week Tonight » et le « Jimmy Kimmel Live ».

Proof News a également découvert que des vidéos de YouTubers célèbres, tels que MrBeast (289 millions d'abonnés, 2 vidéos utilisées), Marques Brownlee (19 millions d'abonnés, 7 vidéos utilisées), Jacksepticeye (près de 31 millions d'abonnés, 377 vidéos utilisées) et PewDiePie (111 millions d'abonnés, 337 vidéos utilisées), ont été utilisées pour entraîner l'IA. Certaines des données utilisées pour entraîner l'IA propageaient même des théories du complot comme celle de la « Terre plate ».

La colère des créateurs

« Personne ne m'a contacté pour me dire : « Nous voulons utiliser ça » », déclare David Pakman, présentateur du « David Pakman Show ». Sa chaîne compte plus de 2 millions d'abonnés et plus de 2 milliards de vues, mais près de 160 vidéos ont été intégrées à l'ensemble de données d'entraînement YouTube Subtitles.

L'équipe de Pakman travaille à plein temps, publiant plusieurs vidéos par jour, et produit également des podcasts, des vidéos TikTok et du contenu pour d'autres plateformes. Si les entreprises d'IA avaient payé pour cela, Pakman affirme qu'il aurait dû être rémunéré pour l'utilisation de ses données. Il souligne que certaines sociétés de médias ont récemment conclu des accords pour être rémunérées pour l'utilisation de leurs œuvres afin d'entraîner l'IA.

Dave Wiskus, PDG de Nebula, une plateforme de streaming détenue en partie par des créateurs dont certaines œuvres ont été extraites de YouTube pour entraîner l'IA, a déclaré sans ambages : « C'est du vol ».

La « mine d'or » des ensembles de données

Les entreprises d'IA sont en concurrence pour obtenir des données de plus haute qualité, ce qui explique en partie pourquoi elles gardent secrètes leurs sources de données. Le New York Times a rapporté plus tôt cette année que Google (propriétaire de YouTube) avait également utilisé les transcriptions vidéo de la plateforme pour entraîner ses modèles. En réponse, un porte-parole a déclaré que cette utilisation avait été consentie par les créateurs YouTube.

L'enquête de Proof News a également révélé qu'OpenAI avait utilisé des vidéos YouTube sans autorisation. Les représentants de l'entreprise n'ont ni confirmé ni infirmé cette découverte.

Défis juridiques et éthiques

YouTube Subtitles et d'autres types de données de transcription vocale sont une « mine d'or » potentielle, car ils peuvent aider à entraîner des modèles à reproduire la façon dont les gens parlent et conversent. Cependant, cela soulève des questions de droit d'auteur et d'éthique. De nombreux créateurs craignent que leur travail, utilisé pour entraîner l'IA, ne finisse par les remplacer.

Proof News a tenté de contacter les propriétaires des chaînes mentionnées dans cet article. Beaucoup n'ont pas répondu aux demandes de commentaires. Parmi les créateurs que nous avons interviewés, aucun n'était au courant que ses informations avaient été utilisées, et encore moins de la manière dont elles l'avaient été.

L'incertitude de l'avenir

De nombreux créateurs se sentent incertains quant à l'avenir. Les YouTubers à plein temps patrouillent régulièrement pour détecter les utilisations non autorisées de leurs œuvres et envoient régulièrement des notifications de suppression. Certains craignent que l'IA ne puisse tôt ou tard générer du contenu similaire au leur, voire le reproduire directement.

Pakman, le créateur du « David Pakman Show », a récemment constaté la puissance de l'IA sur TikTok. Il a découvert une vidéo étiquetée comme un extrait de Tucker Carlson, mais en la regardant, il a été choqué. Elle ressemblait à Carlson, mais chaque mot était tiré de son émission YouTube, même le ton était identique. Il a été tout aussi surpris de constater qu'un seul commentateur semblait réaliser que c'était faux - un clone vocal de Carlson récitant le script de Pakman.

« Ce sera un problème », a déclaré Pakman dans une vidéo YouTube qu'il a réalisée sur la fausse vidéo. « Vous pouvez presque faire ça avec n'importe qui. »

Sid Black, co-fondateur d'EleutherAI, a écrit sur GitHub qu'il avait créé YouTube Subtitles à l'aide d'un script. Ce script télécharge les sous-titres YouTube de la même manière que le navigateur d'un spectateur les télécharge lorsqu'il regarde une vidéo. Selon la documentation sur GitHub, Black a utilisé 495 mots clés pour collecter des vidéos, notamment « vidéastes amusants », « Einstein », « néo-protestants noirs », « services sociaux de protection », « guerre de l'information », « chromodynamique quantique », « Ben Shapiro », « Ouïghours », « fruitarisme », « recettes de gâteaux », « lignes de Nazca » et « la Terre est plate ».

Bien que les conditions d'utilisation de YouTube interdisent l'accès à ses vidéos par des « moyens automatisés », plus de 2 000 utilisateurs de GitHub ont collecté ou approuvé le code.

« Si YouTube voulait empêcher ce module de fonctionner, il y aurait de nombreuses façons de le faire », a écrit l'ingénieur en apprentissage automatique Jonas Depoix dans une discussion sur GitHub, où il a publié le code utilisé par Black pour accéder aux sous-titres YouTube. « Jusqu'à présent, cela ne s'est pas produit. »

Dans un courriel, Depoix a déclaré à Proof News qu'il n'avait pas utilisé le code depuis qu'il l'avait écrit il y a quelques années en tant qu'étudiant pour un projet, et qu'il était surpris que les gens le trouvent utile. Il a refusé de répondre aux questions concernant les règles de YouTube.

Jack Malon, porte-parole de Google, a répondu à une demande de commentaires par courriel, affirmant que l'entreprise avait pris des « mesures pour prévenir les abus et le scraping non autorisé » pendant des années. Il n'a pas répondu aux questions concernant l'utilisation de ces documents comme données d'entraînement par d'autres entreprises.

Parmi les vidéos utilisées par les entreprises d'IA figurent 146 vidéos de la chaîne « Einstein Parrot », qui compte près de 150 000 abonnés. Marcia, la gardienne d'un perroquet gris d'Afrique (qui a préféré ne pas révéler son nom de famille par crainte de compromettre la sécurité du perroquet célèbre), a d'abord pensé qu'il était amusant que le modèle d'IA absorbe les paroles imitées du perroquet.

« Qui voudrait utiliser la voix d'un perroquet ? », a déclaré Marcia. « Mais ensuite, j'ai réalisé qu'il parlait très bien. Il parlait avec ma voix. Donc, il m'imitait, et ensuite l'IA imitait le perroquet. »

Une fois les données absorbées par l'IA, il est impossible de les « oublier ». Marcia est préoccupée par le fait que les informations sur le perroquet puissent être utilisées de manière inconnue, y compris la création d'une copie numérique du perroquet, et craint qu'il ne dise des gros mots.

« Nous entrons en territoire inconnu », a déclaré Marcia.

Liens de référence :

https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/

https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/