Un rapport récent de la société de détection de plagiat Copyleaks révèle qu'un taux impressionnant de 60 % du contenu généré par le modèle linguistique GPT-3.5 d'OpenAI contient des formes de plagiat. Copyleaks utilise une méthode de notation propriétaire qui prend en compte plusieurs facteurs, tels que la similarité textuelle, les modifications mineures et les paraphrases, pour identifier les contenus similaires comme étant du « plagiat ». Les disciplines comme l'informatique, la physique et la psychologie présentent les taux de similarité les plus élevés, tandis que le théâtre, les sciences humaines et la littérature anglaise affichent des taux plus faibles. OpenAI affirme avoir mis en place diverses mesures pour limiter la mémorisation involontaire, et ses conditions d'utilisation interdisent explicitement aux utilisateurs de forcer le modèle à reproduire du contenu. De plus, outre le procès bien connu intenté par le New York Times, certains créateurs de contenu tentent de faire valoir que les modèles d'IA ont été entraînés sur leurs œuvres, et qu'ils devraient donc recevoir une part des bénéfices pour la production de contenus similaires.