Une récente étude de l'Université de Californie à Berkeley a révélé que la modification automatique des invites par les grands modèles linguistiques (LLM) réduit considérablement la qualité des images générées par DALL-E3. Cette étude, menée auprès de 1 891 participants via une expérience en ligne, visait à explorer l'impact de cette réécriture automatique sur la qualité des images.
Au cours de l'expérience, les participants ont été répartis aléatoirement en trois groupes : DALL-E2, DALL-E3 et DALL-E3 avec modification automatique des invites. Les participants devaient rédiger dix invites consécutives afin de reproduire le plus fidèlement possible une image cible. Les résultats ont montré que DALL-E3 surpassait effectivement DALL-E2 en termes de génération d'images, avec une correspondance nettement améliorée avec l'image cible. Cependant, lorsque des invites modifiées automatiquement étaient utilisées, les performances de DALL-E3 ont chuté de près de 58 %. Bien que les utilisateurs de DALL-E3 avec réécriture d'invite aient toujours surpassé les utilisateurs de DALL-E2, cet avantage a été considérablement réduit.
Les chercheurs ont constaté que l'écart de performance entre DALL-E3 et DALL-E2 provenait de deux facteurs principaux : l'amélioration des capacités techniques de DALL-E3 et l'adaptabilité des utilisateurs en matière de stratégie d'invite. Les utilisateurs de DALL-E3, en particulier, utilisaient des invites plus longues, présentant une plus grande similarité sémantique et un vocabulaire plus descriptif. Les participants ne savaient pas quel modèle ils utilisaient, mais leurs performances ont démontré cette adaptabilité.
Les chercheurs estiment qu'avec l'amélioration constante des modèles, les utilisateurs ajusteront également leurs invites afin de mieux exploiter les capacités des modèles les plus récents. Cela indique que, bien que l'apparition de nouveaux modèles ne rende pas les invites obsolètes, les invites restent un moyen important pour les utilisateurs d'exploiter le potentiel des nouveaux modèles.
Cette étude nous rappelle que les outils d'automatisation ne permettent pas toujours d'améliorer les performances des utilisateurs et peuvent même les empêcher de réaliser le plein potentiel des modèles. Par conséquent, lors de l'utilisation d'outils d'IA, les utilisateurs doivent réfléchir à la manière la plus efficace d'ajuster leurs invites afin d'obtenir des résultats de génération d'images plus satisfaisants.
Points clés :
🖼️ La modification automatique des invites entraîne une baisse de près de 58 % de la qualité des images de DALL-E3, limitant les performances des utilisateurs.
🤖 L'expérience a révélé que, bien que DALL-E3 soit supérieur à DALL-E2, l'effet est atténué après la modification automatique des invites.
🔍 Les utilisateurs doivent adapter leurs stratégies d'invite en fonction de l'évolution des modèles afin de tirer pleinement parti du potentiel des nouveaux modèles.