Le 25 avril, Quark AI Super Box, filiale d'Alibaba, a annoncé le lancement d'une nouvelle fonctionnalité innovante : « Prendre une photo et poser une question à Quark ». Cette nouvelle fonctionnalité, basée sur des modèles avancés de compréhension visuelle et de raisonnement, permet de comprendre et de répondre plus précisément aux différentes questions que les utilisateurs peuvent se poser sur le monde physique.
Dans la vie quotidienne, les utilisateurs rencontrent souvent des situations difficiles à décrire avec des mots, notamment lorsqu'ils sont confrontés à des objets, des tableaux et des graphiques complexes. La fonctionnalité « Prendre une photo et poser une question à Quark » de Quark identifie précisément les personnes, les objets et les détails de l'image, comprend en profondeur les besoins de l'utilisateur et associe les questions connexes afin de fournir des réponses plus précises.
Par exemple, lors de la recherche d'artefacts par photo, cette fonctionnalité peut automatiquement associer le contexte historique de l'artefact ; lors du téléchargement d'images de produits, elle permet d'accéder en un clic au lien du produit similaire sur Taobao. Qu'il s'agisse de personnes, d'animaux, de plantes, de bâtiments, de paysages, de nourriture, d'œuvres d'art, de produits, de documents en langue étrangère ou de codes d'erreur, Quark peut effectuer une identification en quelques secondes.
De plus, la fonctionnalité « Prendre une photo et poser une question à Quark » regroupe les capacités de recherche, de numérisation, de retouche photo, de traduction et de création en une seule interface. Pour les images plus complexes, l'utilisateur peut télécharger jusqu'à 10 images à la fois pour un raisonnement approfondi et l'exécution de tâches complexes.
Quark possède actuellement plus de 100 agents et capacités atomiques spécialisés, couvrant de nombreux domaines tels que la recherche, la santé, l'apprentissage, les voyages, les produits et la création. En voyage, les utilisateurs peuvent utiliser « Prendre une photo et poser une question à Quark » pour obtenir des explications sur les artefacts et des guides touristiques ; au travail, il peut aider à analyser les graphiques de données, à optimiser la logique du code et à générer des résumés de travail ; dans le domaine de la santé, après le téléchargement de rapports médicaux, il peut fournir une analyse des anomalies des indicateurs et des suggestions de plans de rééducation.
Dans le domaine du divertissement, « Prendre une photo et poser une question à Quark » prend en charge des fonctions ludiques telles que les conseils de jeux de société, la recherche de séries télévisées à partir de captures d'écran et l'appariement de photos de profil, et peut effectuer des opérations telles que la conversion en haute définition, le retrait de filigrane et la recherche de la source originale en un clic. De plus, cette fonctionnalité prend en charge les questions et l'interprétation de la traduction dans plusieurs langues.