Meta fait face à un procès pour violation de droits d'auteur. Les avocats du plaignant affirment que le PDG de Meta, Mark Zuckerberg, a autorisé l'utilisation par l'entreprise d'un ensemble de données d'e-books et d'articles piratés pour entraîner son modèle d'IA Llama. Cette affaire fait partie des nombreuses poursuites pour violation de droits d'auteur intentées contre plusieurs géants de la technologie, accusés d'utiliser des œuvres protégées par le droit d'auteur sans autorisation pour entraîner leurs modèles d'IA.

Dans des documents déposés mercredi soir auprès du tribunal de district du nord de la Californie, le plaignant réitère les témoignages de Meta de la fin de l'année dernière, révélant que Zuckerberg a approuvé l'utilisation d'un ensemble de données appelé LibGen pour l'entraînement lié à Llama. LibGen est considéré comme un « agrégateur de liens » fournissant un grand nombre de publications universitaires protégées par le droit d'auteur. Bien que le site ait été poursuivi et contraint à la fermeture à plusieurs reprises pour violation de droits d'auteur, il continue de fournir des œuvres de grands éditeurs tels que Cengage Learning et McGraw Hill.

Projection holographique, design de robot (3)

Source : Image générée par IA, fournie par Midjourney.

Les documents mentionnent que des employés de Meta ont admis que LibGen était un « ensemble de données que nous savons être piraté » et ont indiqué que son utilisation pourrait avoir un impact négatif sur la position de négociation de l'entreprise avec les organismes de réglementation. Il est particulièrement préoccupant que l'ingénieur de Meta, Nikolay Bashlykov, soit accusé d'avoir écrit un script pour supprimer les informations de droits d'auteur des e-books de LibGen, notamment les mentions « Copyright » et « Remerciements ». Meta aurait également supprimé les mentions de droits d'auteur et les métadonnées source des articles de revues scientifiques pour masquer sa violation des droits d'auteur.

Plus controversé encore, Meta est accusée d'avoir téléchargé le contenu de LibGen via le torrenting et d'avoir contribué à la diffusion de ces fichiers dont les droits d'auteur ont été volés. Le torrenting est un moyen de distribuer des fichiers sur le réseau, les téléchargeurs partageant le contenu tout en le téléchargeant simultanément. Les avocats du plaignant affirment qu'en participant au torrenting, Meta a commis une autre forme de violation de droits d'auteur. Bien que des ingénieurs de Meta aient exprimé des réserves quant à la légalité de cette pratique, Meta a poursuivi cette activité avec le soutien d'Ahmad Al-Dahle, responsable de l'IA générative.

Ces accusations semblent correspondre à un article du New York Times d'avril dernier, qui suggérait que Meta avait pris des raccourcis dans la collecte de données pour l'intelligence artificielle. Meta aurait employé des sous-traitants africains pour résumer des livres et aurait envisagé d'acquérir l'éditeur Simon & Schuster. Cependant, les dirigeants de Meta ont estimé que la négociation de licences de droits d'auteur prendrait trop de temps, et le principe de l'utilisation équitable est devenu leur principale défense.

Pour l'instant, l'affaire n'est pas encore tranchée et ne concerne que les premiers modèles Llama de Meta. Bien que le tribunal ait rejeté plusieurs poursuites pour violation de droits d'auteur liées à l'IA en 2023, estimant que les plaignants n'avaient pas prouvé la violation, les accusations portées dans cette affaire pourraient néanmoins avoir un impact négatif sur Meta. Dans une ordonnance de mercredi, le juge Vince Chhabria a indiqué qu'il avait rejeté la demande de Meta de supprimer la majeure partie des documents, affirmant que cette suppression visait manifestement à éviter une publicité négative plutôt qu'à protéger des informations commerciales sensibles.

Cette affaire continuera à susciter un large débat sur la manière dont les entreprises technologiques utilisent les œuvres protégées par le droit d'auteur pour entraîner les modèles d'IA, notamment sur la question de la limite entre l'utilisation équitable et la protection des droits d'auteur.