Une nouvelle étude a récemment suscité l'inquiétude, accusant OpenAI d'avoir utilisé des livres payants de O'Reilly Media pour entraîner son dernier modèle d'IA sans autorisation. Cette étude a été publiée par l'organisation à but non lucratif AI Disclosures Project, cofondée en 2024 par le magnat des médias Tim O'Reilly et l'économiste Ilan Strauss.

Copyright (1)

Les modèles d'IA peuvent être considérés comme des moteurs de prédiction complexes. Ils apprennent des schémas à partir d'énormes quantités de données (livres, films, émissions de télévision, etc.) pour faire des inférences à partir d'invites simples. Lorsqu'un modèle écrit, par exemple un article sur la tragédie grecque ou crée une image stylisée, il extrait des informations d'une vaste base de connaissances, sans créer de contenu entièrement nouveau.

Avec de plus en plus de laboratoires d'IA, y compris OpenAI, utilisant des données générées par l'IA pour entraîner leurs modèles afin de répondre à l'épuisement croissant des données du monde réel (principalement des ressources publiques sur Internet), les méthodes d'entraînement évoluent. Néanmoins, les risques liés à une dépendance totale aux données synthétiques poussent de nombreuses organisations à continuer d'utiliser des données réelles pour l'entraînement.

L'étude affirme que le modèle GPT-4o d'OpenAI a probablement été entraîné sur des livres payants de O'Reilly, sans accord de licence avec O'Reilly. L'étude montre que GPT-4o démontre une capacité significativement améliorée à identifier le contenu des livres payants de O'Reilly par rapport à son prédécesseur, GPT-3.5 Turbo.

Les chercheurs ont utilisé une méthode appelée DE-COP pour détecter le contenu protégé par le droit d'auteur dans les données d'entraînement des modèles linguistiques. Dans cette étude, les auteurs ont analysé les connaissances de GPT-4o, GPT-3.5 Turbo et d'autres modèles OpenAI, en utilisant des extraits de 13 962 paragraphes provenant de 34 livres O'Reilly pour estimer la probabilité de ces extraits dans les données d'entraînement des modèles.

Les résultats montrent que GPT-4o présente une reconnaissance plus élevée d'un plus grand nombre de contenus de livres payants O'Reilly, suggérant que le modèle a pu avoir accès à ces contenus non publics pendant son entraînement.

Cependant, les chercheurs soulignent que ce n'est pas une preuve définitive. OpenAI pourrait avoir obtenu ces contenus par le biais de copies-collées effectuées par des utilisateurs. De plus, l'étude n'a pas évalué les modèles les plus récents d'OpenAI, donc la possibilité que ces modèles n'aient pas utilisé les livres payants de O'Reilly pour leur entraînement n'est pas exclue.

Bien qu'OpenAI ait payé pour une partie de ses données d'entraînement et ait conclu des accords avec des éditeurs de journaux, des réseaux sociaux, etc., son utilisation des données d'entraînement fait toujours l'objet de nombreuses contestations dans le contexte juridique actuel. Cette étude ne fait qu'ajouter aux défis importants auxquels OpenAI est confronté dans les nombreux litiges concernant l'utilisation de ses données d'entraînement.

Points clés :

📚 OpenAI est accusé d'avoir utilisé sans autorisation des livres payants de O'Reilly pour entraîner ses modèles d'IA.

🔍 L'étude montre que GPT-4o reconnaît le contenu des livres O'Reilly de manière significativement plus précise que les modèles précédents.

⚖️ OpenAI fait face à de multiples défis juridiques concernant l'utilisation de ses données d'entraînement.