Detrás del rápido desarrollo de la inteligencia artificial, algunos gigantes tecnológicos han recurrido en secreto a métodos bastante controvertidos. No solo han "drenado" libros, sitios web, fotos y publicaciones de redes sociales, sino que también han utilizado una gran cantidad de videos de YouTube para entrenar sus modelos de IA sin el conocimiento de los creadores.

¿Quién tocó mis videos?

Según la investigación de Proof News, gigantes de Silicon Valley como Anthropic, Nvidia, Apple y Salesforce utilizaron datos de subtítulos de 173.536 videos de YouTube para entrenar su IA. Estos videos provienen de más de 48.000 canales, a pesar de que YouTube prohíbe explícitamente la extracción de material de su plataforma sin permiso.

youtube

Estos conjuntos de datos, conocidos como "Subtítulos de YouTube", incluyen subtítulos de videos de canales educativos y de aprendizaje online como Khan Academy, MIT y Harvard. Videos de Wall Street Journal, NPR y BBC también se utilizaron para entrenar la IA, incluso incluyendo programas como "The Late Show with Stephen Colbert", "Last Week Tonight with John Oliver" y "Jimmy Kimmel Live".

Proof News también descubrió que los videos de superestrellas de YouTube como MrBeast (289 millones de suscriptores, 2 videos utilizados para el entrenamiento), Marques Brownlee (19 millones de suscriptores, 7 videos utilizados), Jacksepticeye (casi 31 millones de suscriptores, 377 videos utilizados) y PewDiePie (111 millones de suscriptores, 337 videos utilizados) también se utilizaron para entrenar la IA. Algunos de los materiales utilizados para entrenar la IA incluso promovían teorías de la conspiración como la idea de que "la Tierra es plana".

La ira de los creadores

"Nadie me dijo: 'Queremos usar esto'", afirma David Pakman, presentador de "The David Pakman Show". Su canal tiene más de 2 millones de suscriptores y más de 2.000 millones de visualizaciones, pero casi 160 videos se incluyeron en el conjunto de datos de entrenamiento de Subtítulos de YouTube.

El equipo de Pakman trabaja a tiempo completo, publica varios videos al día y también produce podcasts, videos de TikTok y contenido para otras plataformas. Si las empresas de IA pagaran por ello, Pakman afirma que debería recibir una compensación por el uso de sus datos. Señala que algunas empresas de medios recientemente han firmado acuerdos para recibir pago por el uso de sus obras para entrenar IA.

Dave Wiskus, CEO de Nebula, una plataforma de streaming parcialmente propiedad de creadores, cuyos trabajos fueron tomados de YouTube para entrenar IA, fue aún más directo: "Esto es robo".

La "mina de oro" de los conjuntos de datos

Las empresas de IA compiten por obtener datos de mayor calidad, una de las razones por las que mantienen en secreto el origen de sus datos. The New York Times informó a principios de este año que Google (propietario de YouTube) también utilizó los textos de los videos de la plataforma para entrenar sus modelos. En respuesta, un portavoz afirmó que su uso contó con el consentimiento de los creadores de YouTube.

La investigación de Proof News también descubrió que OpenAI utilizó videos de YouTube sin autorización. Los representantes de la empresa ni confirmaron ni negaron este hallazgo.

Los desafíos legales y éticos

Los Subtítulos de YouTube y otros tipos de datos de voz a texto son una potencial "mina de oro", ya que pueden ayudar a entrenar modelos para replicar la forma en que las personas hablan y conversan. Sin embargo, esto también ha generado controversia sobre derechos de autor y ética. Muchos creadores temen que su trabajo se utilice para entrenar IA, lo que podría acabar reemplazando sus trabajos.

Proof News intentó contactar a los propietarios de todos los canales mencionados en este artículo. Muchos no respondieron a la solicitud de comentarios. De los creadores entrevistados, ninguno era consciente de que su información había sido tomada, y mucho menos de cómo se había utilizado.

La incertidumbre del futuro

Muchos creadores se sienten inseguros sobre el futuro. Los YouTubers a tiempo completo patrullan regularmente en busca de usos no autorizados de sus obras y envían regularmente notificaciones de eliminación. Algunos temen que la IA pueda, tarde o temprano, generar contenido similar al que ellos producen, o incluso copiarlo directamente.

Pakman, creador de "The David Pakman Show", vio recientemente el poder de la IA en TikTok. Encontró un video etiquetado como un clip de Tucker Carlson, pero al verlo se sorprendió. Sonaba como Carlson, pero palabra por palabra era lo que Pakman había dicho en su programa de YouTube, incluso con el mismo tono. Lo que le sorprendió aún más es que solo un comentarista en el video parecía darse cuenta de que era falso: un clon de voz que imitaba a Carlson recitando el guion de Pakman.

"Esto va a ser un problema", dijo Pakman en un video de YouTube que hizo sobre el video falso. "Casi se puede hacer esto con cualquiera".

Sid Black, cofundador de EleutherAI, escribió en GitHub que creó los Subtítulos de YouTube utilizando un script. Este script descargaba los subtítulos de YouTube de la misma manera que lo hacen los navegadores de los espectadores de videos. Según la documentación de GitHub, Black utilizó 495 palabras clave para recopilar videos, incluyendo "YouTubers interesantes", "Einstein", "neogranjeros negros", "servicios sociales de protección", "guerra de información", "cromodinámica cuántica", "Ben Shapiro", "uigures", "fruticultura", "recetas de pasteles", "líneas de Nascar" y "la Tierra es plana".

A pesar de que las condiciones de servicio de YouTube prohíben el acceso a sus videos mediante "medios automatizados", más de 2000 usuarios de GitHub han guardado o aprobado el código.

"Si YouTube quisiera evitar que este módulo funcione, hay muchas maneras de hacerlo", escribió el ingeniero de aprendizaje automático Jonas Depoix en una discusión en GitHub, donde publicó el código que Black utilizó para acceder a los subtítulos de YouTube. "Hasta ahora, eso no ha sucedido".

En un correo electrónico, Depoix le dijo a Proof News que no había utilizado el código desde que lo escribió hace años como estudiante universitario para un proyecto, y que se sorprendió de que la gente lo encontrara útil. Se negó a responder preguntas sobre las reglas de YouTube.

Jack Malon, portavoz de Google, respondió a una solicitud de comentarios en un correo electrónico diciendo que la compañía ha tomado "medidas para prevenir el abuso y la extracción no autorizada" durante años. No respondió a preguntas sobre el uso de estos materiales por parte de otras compañías como datos de entrenamiento.

Entre los videos utilizados por las empresas de IA se incluyen 146 videos de "Einstein Parrot", un canal con casi 150.000 suscriptores. Marcia (quien prefirió no revelar su apellido por temor a poner en peligro la seguridad del famoso loro), cuidadora del loro gris africano, inicialmente pensó que era divertido que el modelo de IA absorbiera el habla imitativa del loro.

"¿Quién querría usar la voz de un loro?", dijo Marcia. "Pero luego, me di cuenta de que hablaba muy bien. Hablaba con mi voz. Así que estaba imitándome a mí, y luego la IA estaba imitando al loro".

Una vez que los datos son absorbidos por la IA, no se pueden "olvidar". A Marcia le preocupa que la información del loro pueda utilizarse de maneras desconocidas, incluyendo la creación de una copia digital del loro, y teme que pueda hacer que diga malas palabras.

"Estamos entrando en territorio desconocido", dijo Marcia.

Enlaces de referencia:

https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/

https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/