Les sorties du modèle GPT-3.5 sont jusqu'à 60 % suspectes de plagiat

站长之家

Publié leActualités IA · 2 minutes de lecture · Feb 26, 2024

Un rapport récent de la société de détection de plagiat Copyleaks révèle qu'un taux impressionnant de 60 % du contenu généré par le modèle linguistique GPT-3.5 d'OpenAI contient des formes de plagiat. Copyleaks utilise une méthode de notation propriétaire qui prend en compte plusieurs facteurs, tels que la similarité textuelle, les modifications mineures et les paraphrases, pour identifier les contenus similaires comme étant du « plagiat ». Les disciplines comme l'informatique, la physique et la psychologie présentent les taux de similarité les plus élevés, tandis que le théâtre, les sciences humaines et la littérature anglaise affichent des taux plus faibles. OpenAI affirme avoir mis en place diverses mesures pour limiter la mémorisation involontaire, et ses conditions d'utilisation interdisent explicitement aux utilisateurs de forcer le modèle à reproduire du contenu. De plus, outre le procès bien connu intenté par le New York Times, certains créateurs de contenu tentent de faire valoir que les modèles d'IA ont été entraînés sur leurs œuvres, et qu'ils devraient donc recevoir une part des bénéfices pour la production de contenus similaires.

Prolifération du plagiat assisté par IA ! ByteDance : intensification de la détection par IA et des actions en justice d'ici 2025

Lors de la « Journée portes ouvertes sur la gouvernance de la plateforme ByteDance » qui s'est tenue aujourd'hui, Yan Mengru, responsable de l'exploitation sécurisée, a dévoilé les résultats de la gouvernance de la plateforme en 2024 et ses plans pour 2025. Elle a souligné que la technologie de l'IA avait abaissé le seuil de création de contenu de faible qualité, des outils comme « Ant AI » ayant accéléré la prolifération de contenu homogène. Les données montrent que la plateforme a traité 7,81 millions d'articles de contenu homogène en 2024, interdit 63 000 comptes en violation des règles et coopéré avec la police pour engager des poursuites dans deux affaires concernant des groupes locaux ayant diffusé des rumeurs homogènes, et publié six communiqués sur la gouvernance. Yan Mengru a déclaré que le plagiat assisté par IA…

Les maisons d'édition musicales et la société d'IA Anthropic concluent un accord pour protéger les paroles contre le plagiat

Les maisons d'édition musicales et la société d'IA Anthropic ont récemment trouvé une solution provisoire à leur différend sur les droits d'auteur. Selon un accord récemment conclu, Anthropic prendra des mesures pour s'assurer que son chatbot d'IA, Claude, ne viole pas les droits d'auteur lorsqu'il fournit des paroles. Cette mesure offre une solution à court terme au litige en cours, témoignant d'un certain compromis entre les deux parties sur cette question complexe. Ce différend découle de poursuites judiciaires intentées par plusieurs maisons d'édition musicales qui accusent Anthropic de…

Google accusé de "plagiat" ? Gemini utilise Claude, un concurrent, pour comparaison, soulevant des questions de conformité

La compétition entre les géants de la technologie dans le domaine de l'IA s'intensifie, et une information récente a mis en lumière les tensions sous-jacentes. Selon des communications internes obtenues par TechCrunch, les contractuels chargés d'améliorer le modèle d'intelligence artificielle Gemini de Google ont comparé ses réponses aux sorties de Claude, le modèle concurrent d'Anthropic. Cette pratique soulève des questions quant à la conformité de Google, notamment s'il a obtenu l'autorisation d'Anthropic d'utiliser Claude pour ses tests. Dans le secteur des entreprises technologiques, la...

Le laboratoire IA de Shanghai présente REEF, une méthode d'identification « empreinte digitale » pour les grands modèles, afin de lutter contre le « plagiat »

À l'ère de l'IA, les grands modèles linguistiques (LLM) sont comme des secrets de kung-fu, leur entraînement nécessitant une puissance de calcul et des données considérables, à l'image d'un maître des arts martiaux en retraite. La publication de modèles open source, c'est comme si ce maître rendait son savoir public, mais avec des licences (comme Apache2.0 et la licence communautaire LLaMA2) pour protéger sa propriété intellectuelle. Cependant, le monde est impitoyable, et les cas de « plagiat » sont fréquents. Certains développeurs prétendent avoir entraîné de nouveaux LLM, alors qu'ils se basent en réalité sur d'autres modèles (comme Lla…)