Recientemente, David Millette, un creador de YouTube de Massachusetts, presentó una demanda colectiva contra OpenAI, alegando que la compañía utilizó millones de transcripciones de videos de YouTube para entrenar sus modelos de inteligencia artificial generativa sin permiso. Según la demanda presentada por los abogados de Millette en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, OpenAI está acusada de transcribir en secreto sus videos y los de otros creadores para entrenar los modelos de sus productos de IA generativa, como ChatGPT.
La demanda afirma que OpenAI, al recopilar estos datos, obtuvo un beneficio claro del trabajo de los creadores, violando así las leyes de derechos de autor y los términos de servicio de YouTube, que prohíben el uso de videos para aplicaciones independientes de su servicio. Los abogados de Millette escribieron en la demanda que los productos de IA de OpenAI son más valiosos debido al uso de datos de entrenamiento no autorizados, sin atribución ni compensación.
El bufete de abogados que representa a Millette busca un juicio con jurado y solicita una indemnización de más de 5 millones de dólares para compensar las pérdidas de todos los usuarios y creadores de YouTube que puedan verse afectados.
Es bien sabido que los modelos de IA generativa no poseen inteligencia real. Aprenden las probabilidades y patrones de aparición de datos al procesar una gran cantidad de muestras de datos (como películas, grabaciones, artículos académicos, etc.). Muchos modelos entrenan sus datos a partir de sitios web y conjuntos de datos públicos en línea. Aunque las empresas afirman que su recopilación de datos cumple con el principio de "uso legítimo", muchos titulares de derechos de autor no están de acuerdo y recurren a demandas para detener esta práctica.
Las transcripciones de videos se han convertido en un dato de entrenamiento importante, especialmente con el agotamiento de otras fuentes de datos. Según datos de Originality.AI, más del 35% de los principales sitios web del mundo han bloqueado los rastreadores web de OpenAI. Además, un estudio de la Iniciativa de Fuentes de Datos del MIT muestra que aproximadamente el 25% de las fuentes de datos de alta calidad están restringidas, lo que provoca una escasez de datos de entrenamiento para los modelos de IA.
Cabe destacar que el modelo Whisper de OpenAI está específicamente diseñado para transcribir audio de video y recopilar más datos de entrenamiento. Según un informe del New York Times, el equipo de OpenAI transcribió más de un millón de horas de videos de YouTube y utilizó estas transcripciones para entrenar su modelo GPT-4. Esto provocó un debate interno sobre la posible violación de las normas de YouTube.
Recientemente, David Millette, un creador de YouTube de Massachusetts, presentó una demanda colectiva contra OpenAI, alegando que la compañía utilizó millones de transcripciones de videos de YouTube para entrenar sus modelos de inteligencia artificial generativa sin permiso. Según la demanda presentada por los abogados de Millette en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, OpenAI está acusada de transcribir en secreto sus videos y los de otros creadores para entrenar los modelos de sus productos de IA generativa, como ChatGPT.
La demanda afirma que OpenAI, al recopilar estos datos, obtuvo un beneficio claro del trabajo de los creadores, violando así las leyes de derechos de autor y los términos de servicio de YouTube, que prohíben el uso de videos para aplicaciones independientes de su servicio. Los abogados de Millette escribieron en la demanda que los productos de IA de OpenAI son más valiosos debido al uso de datos de entrenamiento no autorizados, sin atribución ni compensación.
El bufete de abogados que representa a Millette busca un juicio con jurado y solicita una indemnización de más de 5 millones de dólares para compensar las pérdidas de todos los usuarios y creadores de YouTube que puedan verse afectados.
Es bien sabido que los modelos de IA generativa no poseen inteligencia real. Aprenden las probabilidades y patrones de aparición de datos al procesar una gran cantidad de muestras de datos (como películas, grabaciones, artículos académicos, etc.). Muchos modelos entrenan sus datos a partir de sitios web y conjuntos de datos públicos en línea. Aunque las empresas afirman que su recopilación de datos cumple con el principio de "uso legítimo", muchos titulares de derechos de autor no están de acuerdo y recurren a demandas para detener esta práctica.
Las transcripciones de videos se han convertido en un dato de entrenamiento importante, especialmente con el agotamiento de otras fuentes de datos. Según datos de Originality.AI, más del 35% de los principales sitios web del mundo han bloqueado los rastreadores web de OpenAI. Además, un estudio de la Iniciativa de Fuentes de Datos del MIT muestra que aproximadamente el 25% de las fuentes de datos de alta calidad están restringidas, lo que provoca una escasez de datos de entrenamiento para los modelos de IA.
Cabe destacar que el modelo Whisper de OpenAI está específicamente diseñado para transcribir audio de video y recopilar más datos de entrenamiento. Según un informe del New York Times, el equipo de OpenAI transcribió más de un millón de horas de videos de YouTube y utilizó estas transcripciones para entrenar su modelo GPT-4. Esto provocó un debate interno sobre la posible violación de las normas de YouTube.
Puntos clave:
🔍 El YouTuber David Millette presenta una demanda colectiva contra OpenAI por el uso no autorizado de transcripciones de videos para el entrenamiento de IA.
💰 Millette busca una indemnización de más de 5 millones de dólares en nombre de todos los creadores de YouTube afectados.
🚫 Las fuentes de datos para los modelos de IA generativa enfrentan restricciones cada vez más estrictas, con muchos sitios web importantes bloqueando los rastreadores web de OpenAI.