Incident de fuite de données chez OpenAI : un avertissement pour les entreprises d'IA

Des articles récents ont rapporté une fuite de données chez OpenAI, mais ne vous inquiétez pas pour la sécurité de vos conversations ChatGPT. Bien que cette cyberattaque semble superficielle, elle nous rappelle que les entreprises d'IA sont rapidement devenues l'une des cibles privilégiées des pirates.

Selon le New York Times, un ancien employé d'OpenAI, Leopold Aschenbrenner, a fait allusion à cette attaque lors d'un podcast. Il l'a qualifiée de « événement de sécurité majeur », mais des sources anonymes au sein de l'entreprise ont déclaré au New York Times que les pirates n'avaient obtenu qu'un accès à un forum de discussion interne des employés.

OpenAI, intelligence artificielle, IA

Les failles de sécurité ne doivent jamais être prises à la légère, et l'écoute clandestine des discussions internes sur le développement chez OpenAI a certainement une valeur. Mais cela est loin d'être comparable à une situation où les pirates accèdent à des systèmes internes, à des modèles en cours de développement, à des feuilles de route secrètes, etc.

Néanmoins, cela devrait nous inquiéter, mais pas nécessairement à cause de la menace que la Chine ou d'autres adversaires nous surpassent dans la course aux armements de l'IA. La simple vérité est que ces entreprises d'IA sont devenues les gardiennes de données extrêmement précieuses.

Parlons des trois types de données qu'OpenAI, et dans une certaine mesure d'autres entreprises d'IA, créent ou consultent : des données d'entraînement de haute qualité, un grand nombre d'interactions utilisateur et des données clients.

On ne sait pas exactement quelles données d'entraînement elles possèdent, car ces entreprises sont très discrètes à ce sujet. Mais il serait faux de penser qu'il ne s'agit que d'une énorme quantité de données web collectées. Oui, elles utilisent des robots d'exploration web ou des ensembles de données comme « Pile », mais la mise en forme des données brutes pour l'entraînement de modèles comme GPT-4o est une tâche énorme qui nécessite un nombre considérable d'heures de travail humain — un processus qui ne peut être que partiellement automatisé.

Certains ingénieurs en machine learning supposent que l'un des facteurs les plus importants dans la création de grands modèles linguistiques (ou peut-être de tout système basé sur les transformateurs) est la qualité de l'ensemble de données. C'est pourquoi les modèles entraînés sur Twitter et Reddit ne seront jamais aussi éloquents que ceux entraînés sur toutes les œuvres publiées au cours du siècle dernier. (C'est peut-être aussi pourquoi OpenAI aurait utilisé des sources douteuses pour ses données d'entraînement, comme des livres protégés par le droit d'auteur, une pratique qu'ils affirment avoir abandonnée.)

Par conséquent, l'ensemble de données d'entraînement créé par OpenAI a une énorme valeur pour les concurrents, les autres entreprises, les États adversaires et les organismes de réglementation américains. La FTC ou les tribunaux voudraient-ils savoir quelles données ont été utilisées exactement, et si OpenAI a réellement dit la vérité à ce sujet ?

Mais peut-être que ce qui est encore plus précieux, c'est l'énorme base de données d'utilisateurs d'OpenAI — qui contient probablement des milliards de conversations sur des millions de sujets avec ChatGPT. Tout comme les données de recherche étaient autrefois la clé pour comprendre la psychologie collective du web, ChatGPT détient des données sur une population peut-être moins vaste que celle des utilisateurs de Google, mais qui offre une compréhension plus approfondie. (Si vous ne le savez pas, vos conversations sont utilisées comme données d'entraînement, sauf si vous choisissez de vous désinscrire.)

Des centaines de grandes entreprises et d'innombrables petites entreprises utilisent les outils API similaires à ceux d'OpenAI et d'Anthropic pour toutes sortes de tâches. Pour que les modèles linguistiques soient utiles, il faut généralement les affiner ou leur donner accès à leurs bases de données internes.

Il peut s'agir de vieux tableaux de bord budgétaires ou de dossiers du personnel (par exemple, pour les rendre plus faciles à rechercher), ou de code logiciel non encore publié. La manière dont ils utilisent les capacités de l'IA (et si elles sont réellement utiles) est leur affaire, mais la simple vérité est que les fournisseurs d'IA ont un accès privilégié, comme n'importe quel autre produit SaaS.

Ce sont des secrets industriels, et les entreprises d'IA sont soudainement devenues le cœur de ces secrets. La nouveauté de ce secteur présente un risque particulier, car les processus d'IA ne sont pas encore standardisés ni entièrement compris.

Points clés :
- Les données détenues par les entreprises d'IA, notamment les données d'entraînement de haute qualité, les données d'interaction utilisateur et les données clients, ont une énorme valeur pour les concurrents, les organismes de réglementation et les analystes de marché.
- Les enregistrements des conversations des utilisateurs avec les modèles d'IA sont des informations précieuses, une mine d'or pour le développement de l'IA, les équipes marketing et les analystes conseil.
- La nouvelle tendance des entreprises d'IA comme cibles de cyberattaques met en évidence l'importance des mesures de sécurité, même en l'absence de fuite de données majeure.

Actualités IA

Incident de fuite de données chez OpenAI : un avertissement pour les entreprises d'IA

AIbase