Zuckerberg savait que Meta utilisait des données de bibliothèques piratées pour entraîner son IA

Récemment, des documents révélés dans le cadre d'un litige collectif concernant les droits d'auteur impliquant Meta ont révélé que la société a utilisé Library Genesis (LibGen), une bibliothèque de livres électroniques piratés, pour entraîner son dernier chatbot IA, Llama3. Ces documents montrent que les ingénieurs de Meta ont discuté des risques potentiels liés à l'utilisation de cette « bibliothèque fantôme », notamment au vu des préoccupations croissantes concernant les droits d'auteur et la propriété des données. Malgré les conséquences négatives potentielles et les risques de relations publiques, le PDG de Meta, Mark Zuckerberg, a approuvé cette décision.

Bibliothèque Salle de lecture Lecture (3)

Source : Image générée par IA, fournisseur Midjourney

Suite à une demande du tribunal, des enregistrements confidentiels de conversations internes de Meta concernant l'utilisation de l'ensemble de données LibGen ont été déclassifiés. Les documents montrent que les dirigeants de Meta, lors de discussions avec l'équipe de recherche IA, ont clairement indiqué que les données de LibGen étaient « des données que nous savons être piratées » et ont convenu de les utiliser pour améliorer les performances de Llama3. Dans un e-mail, le directeur de la gestion des produits de Meta, Sony Theakanath, a souligné que, bien que la décision d'utiliser LibGen ait entraîné des risques de relations publiques, d'autres entreprises d'IA utilisaient des données similaires, ce qui a donné l'impression à l'équipe de Meta que cette voie n'était pas unique.

Plus inquiétant encore, les employés de Meta ont également discuté de la manière de traiter et de filtrer les textes de LibGen afin de supprimer les mentions de droits d'auteur, telles que les ISBN et les déclarations de copyright. Un mémo interne indique que les documents fournis par LibGen sont de « haute qualité et longs, très adaptés à l'apprentissage de connaissances très spécialisées ». Cela suggère que Meta a tenté de dissimuler son utilisation de contenu non autorisé.

De plus, les employés de Meta ont mentionné dans des e-mails que le téléchargement de torrents directement à partir de l'adresse IP de l'entreprise pouvait être inapproprié, et ont exprimé leurs inquiétudes à ce sujet. Cependant, avec Zuckerberg « poussant la décision d'utiliser l'ensemble de données LibGen depuis les plus hautes sphères », l'ambition de Meta de gagner la course à l'IA est évidente. Cet événement soulève à nouveau des questions et des préoccupations concernant la position des grandes entreprises technologiques sur la question des droits d'auteur.

L'issue de ce procès pour violation des droits d'auteur pourrait avoir un impact important sur d'autres affaires similaires en cours, notamment celles concernant l'utilisation d'œuvres de création telles que des images, de la musique et des œuvres littéraires. Avec la demande croissante des entreprises technologiques en matière de contenu original, les droits des créateurs de contenu original seront au cœur des préoccupations.

Actualités IA

Zuckerberg savait que Meta utilisait des données de bibliothèques piratées pour entraîner son IA

AIbase基地