Dans l’une des affaires de droits d’auteur sur l’intelligence artificielle en cours concernant Meta, Kadrey c. Meta, des informations internes divulguées par le tribunal révèlent une concurrence acharnée et des problèmes potentiels de droits d’auteur lors du développement de Llama3. Les dirigeants et chercheurs de haut niveau de Meta ont déployé tous leurs efforts pour surpasser des entreprises comme OpenAI et Anthropic dans le développement de modèles d'IA, considérant leurs GPT-4 et Claude comme des références.
Une mentalité de compétition féroce : Meta jure de battre OpenAI
Selon Ahmad Al-Dahle, vice-président de l'IA générative chez Meta, l'objectif du développement de Llama3 était clairement de viser GPT-4 et de prendre une longueur d'avance dans la course à l'IA grâce à un support matériel efficace, comme les GPU 64k. Al-Dahle a écrit dans un message interne : « Nous allons lancer les GPU 64k ! Nous devons apprendre à construire l'avant-garde et à gagner cette course. »
Cependant, bien que Meta ait publié des modèles d'IA open source, les dirigeants de Meta se sont davantage concentrés sur la défaite de concurrents qui ne rendent généralement pas publics les poids de leurs modèles, tels qu'OpenAI et Anthropic, préférant proposer leurs modèles via des API, ce qui a créé un point focal de forte compétition.
Le mépris envers Mistral et l’anxiété interne
La startup française d’intelligence artificielle Mistral est l’un des principaux concurrents publics de Meta, mais les dirigeants de Meta la semblent clairement mépriser. Dans un message, Al-Dahle a déclaré : « Mistral est insignifiant pour nous, nous devrions pouvoir faire mieux. » Cela révèle également une anxiété extrême au sein de Meta concernant la concurrence en matière d’IA, ainsi que de fortes ambitions dans le secteur.
Parallèlement, les leaders de l’IA de Meta ont fréquemment évoqué dans leurs échanges internes la manière dont ils acquièrent activement des données pour entraîner Llama3, et certaines informations suggèrent que les dirigeants nourrissent de grandes attentes envers Llama3. Un dirigeant a même mentionné dans un message : « Llama3 est la seule chose qui m’importe vraiment. »
Problèmes de droits d’auteur et défis juridiques
Avec la concurrence acharnée rencontrée par Meta lors du développement de Llama3, les données d’entraînement utilisées ont commencé à susciter des controverses juridiques. Les procureurs affirment que les dirigeants de Meta, dans leur course effrénée pour le développement de l’IA, ont peut-être négligé certains aspects et utilisé des livres protégés par le droit d’auteur comme données d’entraînement.
Dans un message, le chercheur Hugo Touvron a révélé que la combinaison de jeux de données utilisée pour l’entraînement de Llama2 était « mauvaise » et a suggéré d’améliorer les jeux de données pour optimiser Llama3. Ils ont également discuté de la manière de surmonter les obstacles liés à l’utilisation du jeu de données LibGen, qui contient des œuvres protégées par le droit d’auteur d’éditeurs tels que Cengage Learning, Macmillan Learning, McGraw Hill et Pearson Education.
Malgré les problèmes de droits d’auteur, le PDG de Meta, Mark Zuckerberg, a souligné que Meta continuerait à faire progresser les modèles Llama et à réduire l’écart avec d’autres modèles fermés tels que ceux d’OpenAI et de Google.
Perspectives d’avenir de Meta et positionnement sur le marché de Llama3
En juillet 2024, Zuckerberg a déclaré que Llama3 était comparable aux modèles d’IA les plus avancés en termes de performances, et même en avance dans certains domaines. Il prévoit que la série Llama de Meta deviendra le modèle d’IA le plus avancé du secteur à partir de 2025. Cependant, le lancement de Llama3 doit encore faire face à des poursuites judiciaires pour violation des droits d’auteur de plus en plus importantes, notamment en raison de l’examen juridique des données d’entraînement.