Récemment, le New York Times et le Daily News ont intenté une action en justice contre OpenAI, l'accusant d'avoir utilisé leurs œuvres sans autorisation pour entraîner ses modèles d'intelligence artificielle.
Cette affaire a suscité l'attention du public, car l'équipe d'avocats des plaignants a indiqué dans de récents documents judiciaires que des ingénieurs d'OpenAI avaient accidentellement supprimé des preuves potentiellement importantes pour l'affaire lors du traitement des données.
OpenAI avait accepté à l'automne dernier de fournir deux machines virtuelles pour permettre à l'équipe d'avocats des plaignants de rechercher la présence de contenu protégé par des droits d'auteur dans ses données d'entraînement. Une machine virtuelle est un ordinateur virtuel fonctionnant au sein d'un système d'exploitation informatique, souvent utilisé pour les tests, les sauvegardes de données et l'exécution d'applications. Depuis le 1er novembre, les conseillers juridiques du New York Times et du Daily News et leurs experts ont travaillé plus de 150 heures sur les données d'entraînement d'OpenAI.
Cependant, le 14 novembre, les ingénieurs d'OpenAI ont accidentellement effacé les données de recherche stockées sur l'une de ces machines virtuelles. Selon la lettre des avocats des plaignants, bien qu'OpenAI ait tenté de récupérer les données perdues et ait réussi dans la plupart des cas, les données récupérées ne peuvent pas être utilisées pour déterminer comment les articles des plaignants ont été utilisés pour entraîner le modèle d'OpenAI, en raison de la « non-récupération » de la structure des dossiers et des noms de fichiers.
Les conseillers juridiques des plaignants soulignent qu'ils ne pensent pas que cette suppression ait été intentionnelle, mais cet incident montre qu'OpenAI « est le mieux placé pour rechercher du contenu potentiellement illicite dans son propre ensemble de données ». Cela signifie qu'OpenAI devrait utiliser ses propres outils pour trouver plus efficacement les contenus illicites concernés.
Dans cette affaire et d'autres similaires, OpenAI a toujours soutenu que l'utilisation de données accessibles au public pour l'entraînement de ses modèles constituait un « usage loyal » (fair use). Cela signifie qu'OpenAI estime qu'elle n'a pas besoin de payer de droits d'auteur pour l'utilisation de ces exemples, même si elle tire profit de ces modèles.
Il est à noter qu'OpenAI a signé des accords de licence avec un nombre croissant de nouveaux médias, notamment l'Associated Press, Business Insider et le Financial Times, mais les termes précis de ces accords n'ont pas été rendus publics par OpenAI. Il semblerait que le partenaire de contenu Dotdash reçoive au moins 16 millions de dollars par an.
Malgré le litige juridique, OpenAI n'a ni confirmé ni infirmé avoir utilisé des œuvres protégées par des droits d'auteur sans autorisation pour l'entraînement de son IA.
Points clés :
🌐 OpenAI est accusé d'avoir accidentellement supprimé des preuves potentiellement importantes dans une affaire de droits d'auteur.
🕒 Les avocats des plaignants affirment avoir consacré beaucoup de temps et de ressources à la récupération des données.
💼 OpenAI maintient que l'utilisation de données publiques pour l'entraînement de ses modèles constitue un usage loyal.