Apple a récemment publié un article technique détaillant les modèles développés pour les fonctionnalités d'intelligence artificielle générative de sa série « Apple Intelligence », qui seront déployées sur iOS, macOS et iPadOS dans les prochains mois. Dans cet article, Apple répond aux préoccupations concernant l'éthique de l'entraînement de ses modèles, réaffirmant qu'aucune donnée utilisateur privée n'a été utilisée, mais plutôt des données publiques et des données sous licence.

IA, intelligence artificielle, robot

Source : Image générée par IA, fournie par Midjourney

Apple précise que l'ensemble de données pré-entraîné comprend des données sous licence provenant d'éditeurs, des ensembles de données publiques soigneusement sélectionnés et des informations publiques collectées par son robot d'exploration web, Applebot. Apple souligne l'importance de la protection de la vie privée des utilisateurs et affirme que ces données ne contiennent aucune information personnelle.

En juillet, des médias ont rapporté qu'Apple avait utilisé un ensemble de données appelé « The Pile », contenant des millions de sous-titres de vidéos YouTube, dont de nombreux créateurs n'étaient pas au courant et n'avaient pas autorisé l'utilisation. Apple a ensuite déclaré qu'il n'avait pas l'intention d'utiliser ces modèles pour fournir des fonctionnalités d'IA à ses produits.

Cet article technique lève le voile sur les « modèles fondamentaux Apple » (AFM) annoncés lors de la WWDC 2024 d'Apple, soulignant que les données d'entraînement de ces modèles ont été obtenues de manière « responsable ». Les données d'entraînement des modèles AFM proviennent de données web publiques et de données sous licence d'éditeurs non divulgués. Des informations indiquent qu'à la fin de 2023, Apple a conclu des accords à long terme d'au moins 50 millions de dollars avec plusieurs éditeurs, notamment NBC et Condé Nast, pour utiliser leurs archives de nouvelles dans l'entraînement des modèles. De plus, les modèles AFM ont utilisé du code source ouvert hébergé sur GitHub, y compris du code dans plusieurs langages de programmation tels que Swift, Python et C.

Cependant, l'utilisation de code source ouvert pour l'entraînement des modèles a suscité des controverses parmi les développeurs. Certaines bibliothèques de code source ouvert n'ont pas de licence ou n'autorisent pas l'utilisation pour l'entraînement de l'IA, mais Apple affirme avoir appliqué un « filtre de licence » pour sélectionner uniquement les bibliothèques dont les restrictions d'utilisation sont limitées.

Pour améliorer les capacités mathématiques des modèles AFM, Apple a inclus dans l'ensemble de données d'entraînement des problèmes et des réponses mathématiques provenant de pages web, de forums de mathématiques, de blogs, de tutoriels et d'ateliers. De plus, ils ont utilisé des ensembles de données « de haute qualité et publiquement disponibles » pour l'ajustement fin, afin de minimiser les risques de comportements inappropriés du modèle.

L'ensemble de données intégré contient environ 6,3 billions de jetons, tandis que Meta a utilisé 15 billions de jetons pour entraîner son modèle de génération de texte phare Llama 3.1405B. Apple a également optimisé les modèles AFM grâce à des retours humains et des données synthétiques pour les rendre plus conformes aux besoins des utilisateurs.

Bien que cet article ne présente pas de découvertes révolutionnaires, c'est un choix délibéré. La plupart de ces articles ne sont pas très détaillés pour éviter les problèmes juridiques. Apple mentionne qu'il permet aux webmasters d'empêcher les robots d'exploration de collecter des données, mais cela n'est pas très utile pour les créateurs individuels, et la question de la protection de leurs œuvres reste un problème à résoudre.

Points clés :

🌟 Apple souligne que les données d'entraînement des modèles n'incluent pas de données utilisateur privées, mais reposent sur des données publiques et sous licence. 

📊 Les données d'entraînement comprennent du contenu sous licence provenant de plusieurs éditeurs et des bibliothèques de code source ouvert. 

🔍 Apple s'efforce d'améliorer les performances et le sens des responsabilités de ses modèles d'IA tout en protégeant la vie privée des utilisateurs.