La herramienta de generación de video de OpenAI, Sora, ha llamado mucho la atención desde su lanzamiento, pero su origen ha sido un misterio. Ahora, parece que se ha desvelado parte del enigma: ¡es muy probable que los datos de entrenamiento de Sora incluyan una gran cantidad de transmisiones y tutoriales de juegos de Twitch!
Sora es como un maestro imitador experto. Solo necesita un aviso de texto o una imagen para generar videos de hasta 20 segundos, manejando diversas relaciones de aspecto y resoluciones. En febrero, cuando OpenAI presentó Sora por primera vez, insinuó que su modelo se había "entrenado" con videos de Minecraft. Entonces, además de Minecraft, ¿qué otros manuales de juegos contiene el "libro de artes marciales" de Sora?
El resultado es sorprendente. Sora parece dominar diversos géneros de juegos. Puede generar un video de un juego clónico con la sombra de Mario, aunque con algunos "pequeños defectos"; también puede simular escenas de juegos de disparos en primera persona que te emocionan, como una fusión de Call of Duty y Counter-Strike; e incluso puede recrear escenas de lucha de juegos de arcade de los 90 como las Tortugas Ninja, transportándote a tus recuerdos de infancia.

Más sorprendente aún es que Sora conoce perfectamente el formato de las transmisiones de Twitch, lo que sugiere que ha "visto" una gran cantidad de contenido en vivo. Las capturas de pantalla de los videos generados por Sora no solo capturan con precisión la estructura de las transmisiones, sino que incluso recrean de forma asombrosamente precisa la imagen del famoso streamer Auronplay, incluyendo el tatuaje de su brazo izquierdo.

Además, Sora "conoce" a otra streamer de Twitch, Pokimane, y ha generado videos con personajes similares a ella. Por supuesto, para evitar problemas de derechos de autor, OpenAI ha implementado un mecanismo de filtrado que impide que Sora genere videos con personajes con derechos de marca registrada.
Aunque OpenAI mantiene el secreto sobre el origen de sus datos de entrenamiento, todo indica que el contenido de los juegos probablemente se incluyó en el conjunto de entrenamiento de Sora. La ex directora de tecnología de OpenAI, Mira Murati, en una entrevista con el Wall Street Journal en marzo, no negó directamente que Sora utilizara contenido de YouTube, Instagram y Facebook para su entrenamiento. OpenAI también admite en las especificaciones técnicas de Sora que utilizó datos "públicamente disponibles" y datos con licencia de bibliotecas de medios como Shutterstock.

Si el contenido de los juegos se utilizó realmente para entrenar a Sora, esto podría generar una serie de problemas legales, especialmente si OpenAI desarrolla experiencias más interactivas basadas en Sora. Joshua Wagensberg, abogado de propiedad intelectual de Pryor Cashman, señala que el uso no autorizado de videos de juegos para entrenar IA conlleva un gran riesgo, ya que el entrenamiento de modelos de IA suele requerir la reproducción de los datos de entrenamiento, y los videos de juegos contienen una gran cantidad de contenido protegido por derechos de autor.
Los modelos de IA generativa como Sora se basan en la probabilidad. Aprenden patrones a partir de grandes cantidades de datos y realizan predicciones. Esta capacidad les permite "aprender" cómo funciona el mundo. Pero también existe un riesgo: con indicaciones específicas, el modelo puede generar contenido muy similar a sus datos de entrenamiento. Esto ha generado un gran descontento entre los creadores, que consideran que sus obras se utilizan para el entrenamiento sin su permiso.
Actualmente, Microsoft y OpenAI están siendo demandados por la supuesta reproducción de código con licencia en sus herramientas de IA. Empresas de aplicaciones de arte con IA como Midjourney, Runway y Stability AI también se enfrentan a acusaciones de violación de los derechos de los artistas. Las principales compañías discográficas también han demandado a las startups Udio y Suno, desarrolladoras de generadores de canciones con IA.
Muchas empresas de IA han defendido durante mucho tiempo el principio de "uso legítimo", argumentando que sus modelos crean obras "transformativas", no plagio. Pero el contenido de los juegos tiene una especificidad particular. Evan Everist, abogado de derechos de autor de Dorsey & Whitney, señala que los videos de juegos implican al menos dos capas de protección de derechos de autor: los derechos de autor del contenido del juego que posee el desarrollador del juego y los derechos de autor del video único creado por el jugador o el creador del video. Para algunos juegos, puede haber una tercera capa de derechos: los derechos de autor del contenido generado por el usuario.
Por ejemplo, Fortnite permite a los jugadores crear sus propios mapas de juego y compartirlos con otros. Un video de juego sobre estos mapas involucraría al menos a tres titulares de derechos de autor: Epic, el jugador y el creador del mapa. Si un tribunal determina que existe responsabilidad por derechos de autor en el entrenamiento de modelos de IA, todos estos titulares de derechos de autor podrían ser demandantes potenciales o fuentes de licencias.
Además, Wagensberg señala que los propios juegos tienen muchos elementos "protegibles", como texturas patentadas, que los jueces podrían considerar en un litigio de propiedad intelectual.

Actualmente, varios estudios y distribuidores de juegos, incluyendo Epic, Microsoft (propietario de Minecraft), Ubisoft, Nintendo, Roblox y CD Projekt Red (desarrollador de Cyberpunk 2077), no han hecho comentarios al respecto.
Incluso si las empresas de IA ganan estos litigios, los usuarios podrían no quedar exentos. Si un modelo generativo reproduce una obra protegida por derechos de autor, la persona que publique esa obra o la incluya en otros proyectos podría ser responsable de la infracción de los derechos de propiedad intelectual.
Algunas empresas de IA tienen cláusulas de indemnización para estos casos, pero suelen haber excepciones. Por ejemplo, las cláusulas de OpenAI solo se aplican a clientes empresariales, no a usuarios individuales. Además, además del riesgo de derechos de autor, existe el riesgo de infracción de marcas comerciales, por ejemplo, la salida podría contener activos utilizados para marketing y branding, incluyendo personajes de juegos.
A medida que crece el interés en los modelos mundiales, la situación podría volverse más compleja. Una aplicación de los modelos mundiales es la generación de videojuegos en el mundo real; si estos juegos "sintéticos" son demasiado similares al contenido del entrenamiento del modelo, podrían surgir problemas legales.
Avery Williams, abogado de litigios de propiedad intelectual de McKool Smith, señala que el entrenamiento de una plataforma de IA en un juego con elementos como voz, movimiento, personajes, canciones, diálogos y arte constituye una infracción de derechos de autor. Las cuestiones planteadas sobre el "uso legítimo" en las numerosas demandas contra las empresas de IA generativa tendrán el mismo impacto en la industria de los videojuegos que en otros mercados creativos.