Google lance Whisk, un outil d'IA innovant pour la création d'images : fusion de sujets, de scènes et de styles à partir de plusieurs images

AIbase基地

Publié leActualités IA · 6 minutes de lecture · Dec 17, 2024

353

Les laboratoires Google ont récemment lancé aux États-Unis Whisk, leur dernier outil expérimental d'intelligence artificielle générative. Contrairement aux outils de génération d'images traditionnels qui reposent principalement sur des invites textuelles, Whisk privilégie l'utilisation d'images comme méthode d'entrée, permettant aux utilisateurs de créer des œuvres d'art de manière plus intuitive.

Les utilisateurs peuvent télécharger directement des images sur Whisk ou générer des images au sein de l'outil, en spécifiant des éléments tels que le thème, la scène et le style. Le système Whisk permet aux utilisateurs de mélanger et d'associer ces composants, et ils peuvent affiner le résultat à l'aide d'invites textuelles supplémentaires si nécessaire.

Il est important de noter qu'en arrière-plan, le modèle linguistique de Google (probablement le récent Gemini 2.0 Flash) génère automatiquement une description détaillée de l'image d'entrée. Ces descriptions sont ensuite introduites dans le dernier modèle de génération d'images de Google, Imagen 3, afin de capturer les caractéristiques essentielles du sujet, plutôt que de créer une copie identique.

AIbase a effectué plusieurs tests. En téléchargeant les trois images de gauche, il est possible de générer l'image de droite par fusion. Les résultats sont plutôt bons et l'outil est très ludique. Voici un exemple :

Cependant, étant donné que Whisk n'extrait que quelques éléments clés de chaque image source, Google avertit les utilisateurs que le résultat de l'image générée peut différer des attentes. Par exemple, l'image générée peut présenter des différences de taille, de poids, de coiffure ou de couleur de peau par rapport à l'image originale.

Google précise que ces détails sont souvent cruciaux pour la réussite d'un projet, et permet donc aux utilisateurs de consulter et de modifier les invites textuelles qui pilotent le processus de génération d'images.

Les testeurs précoces, notamment des artistes et des professionnels de la création, considèrent Whisk comme un nouvel outil créatif plutôt qu'un éditeur d'images traditionnel. Google espère que cet outil aidera les utilisateurs à réaliser rapidement un brainstorming visuel, plutôt qu'à effectuer des retouches précises, leur permettant de générer et de filtrer rapidement plusieurs options avant de sauvegarder leurs œuvres préférées.

Lors des tests préliminaires, bien que Whisk soit très agréable à utiliser, la génération de chaque nouvelle image nécessite quelques secondes d'attente. Ces retards peuvent être dus à un trafic élevé, les utilisateurs étant nombreux à vouloir essayer ce nouvel outil.

Actuellement, Whisk n'est disponible que pour les utilisateurs américains. Il est possible de l'essayer gratuitement et de partager ses commentaires sur labs.google/whisk. Les utilisateurs d'autres pays n'ont pour le moment pas accès à cet outil.

Whisk fait partie des Google Labs, le terrain d'essai de Google pour tester ses projets d'IA, notamment Gemini, Imagen et le dernier modèle vidéo Veo2. Si la plupart des projets sont encore expérimentaux, certains projets réussis, comme l'assistant IA NotebookLM récemment lancé, sont transformés en produits complets.

Adresse d'essai du produit : https://top.aibase.com/tool/whisk

Points clés :
🌟 Google lance Whisk, le premier outil d'IA générative basé principalement sur les images.
🎨 Les utilisateurs peuvent télécharger ou générer des images pour une conception visuelle rapide plutôt que des retouches précises.
🚫 Actuellement, l'outil est uniquement disponible pour les utilisateurs américains. L'accès est temporairement restreint pour les autres pays.

Rapport Deloitte : 74 % des entreprises ont atteint ou dépassé le retour sur investissement de l'IA générative

À l'échelle mondiale, les entreprises de tous types s'efforcent de comprendre l'intelligence artificielle générative (IA générative) et d'explorer sa valeur potentielle. Selon un récent rapport de Deloitte sur l'état de l'intelligence artificielle générative, la plupart des organisations obtiennent en fait de bons résultats en matière de retour sur investissement. Ce rapport, basé sur une enquête menée auprès de 2 773 dirigeants dans 14 pays, révèle les progrès et les défis des organisations en matière d'application de l'intelligence artificielle générative. Légende de l'image : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney.

238 services d'intelligence artificielle générative enregistrés auprès du Cyberspace Administration of China en 2024

Le 8 janvier, le Bureau d'information Internet de Chine a publié un communiqué sur l'enregistrement des services d'intelligence artificielle générative, soulignant l'importance de promouvoir l'innovation et la réglementation dans ce domaine. Conformément aux dispositions des "Règles provisoires sur la gestion des services d'intelligence artificielle générative", le département de la cybersécurité continuera à promouvoir l'enregistrement des services d'intelligence artificielle générative. Au 31 décembre 2024, 302 services d'intelligence artificielle générative avaient été enregistrés auprès du Cyberspace Administration of China, dont 238 nouveaux services enregistrés en 2024. Cela montre que le domaine de l'intelligence artificielle générative est en pleine expansion...

Shanghai ajoute 9 nouveaux services d'intelligence artificielle générative enregistrés

L'office de cybersécurité de Shanghai a publié un nouveau communiqué concernant l'enregistrement des services d'intelligence artificielle générative, visant à promouvoir l'innovation et l'utilisation réglementée de l'IA générative dans la ville. Conformément aux dispositions du « Règlement provisoire sur la gestion des services d'intelligence artificielle générative », Shanghai a procédé à l'enregistrement ordonné des services d'IA générative et a enregistré les services utilisant les capacités des modèles enregistrés via une API ou d'autres moyens. À ce jour, Shanghai a ajouté 9 nouveaux services d'IA générative enregistrés, portant le nombre total de services enregistrés à 63. Cet enregistrement...

L'IA peut sentir le whisky ! Identification réussie des différences entre le whisky américain et le whisky écossais

Récemment, une équipe de recherche de l'Institut Fraunhofer de génie des procédés et d'emballage en Allemagne a développé un algorithme de prédiction de l'odeur moléculaire d'IA appelé OWSum, qui a réussi à différencier le whisky américain du whisky écossais, avec une précision supérieure à celle des experts humains. L'équipe a utilisé des descriptions de saveurs et des données chimiques du whisky pour entraîner cet outil d'IA, explorant son potentiel dans l'identification du whisky. Note sur l'image : L'image a été générée par l'IA, le fournisseur de services d'autorisation d'images Midjourney a participé à la recherche. 16 échantillons ont été sélectionnés pour l'étude.