Am 25. April kündigte Quarks AI-Superbox von Alibaba eine innovative Funktion an: „Foto fragen – Quark“. Diese neue Funktion basiert auf einem fortschrittlichen Modell für visuelles Verständnis und logisches Denken und kann Fragen des Nutzers aus der physischen Welt präziser verstehen und beantworten.
Im Alltag stoßen Nutzer oft auf Situationen, die sich nur schwer in Worte fassen lassen, insbesondere bei komplexen Objekten, Tabellen und Grafiken. Quarks „Foto fragen – Quark“-Funktion erkennt präzise Personen, Objekte und Details auf Bildern, versteht die Nutzerbedürfnisse tiefgreifend, assoziiert verwandte Fragen und liefert so genauere Antworten.
Beispielsweise kann die Funktion beim Fotografieren von Artefakten automatisch den historischen Hintergrund verknüpfen; beim Hochladen von Produktbildern kann direkt zu einem ähnlichen Artikel auf Taobao gesprungen werden. Ob Personen, Tiere, Pflanzen, Gebäude, Landschaften, Speisen, Kunstwerke, Waren, fremdsprachige Dokumente oder Fehlercodes – Quark erkennt alles innerhalb von Sekunden.
Darüber hinaus vereint die Funktion „Foto fragen – Quark“ Such-, Scan-, Bildbearbeitungs-, Übersetzungs- und Kreativfunktionen in einem einzigen Zugriffspunkt. Bei komplexeren Bildern können bis zu 10 Bilder gleichzeitig hochgeladen werden, um eine tiefgreifende Analyse durchzuführen und verschiedene komplexe Aufgaben zu erledigen.
Quark verfügt derzeit über mehr als 100 professionelle Agents und atomare Funktionen, die Bereiche wie Suche, Gesundheit, Lernen, Reisen, Waren und Kreativität abdecken. Auf Reisen können Nutzer mit „Foto fragen – Quark“ Erläuterungen zu Artefakten und Reiseführerinformationen erhalten; bei der Arbeit kann es bei der Analyse von Datendiagrammen, der Optimierung der Codelogik und der Erstellung von Arbeitszusammenfassungen helfen; im Gesundheitsbereich kann es nach dem Hochladen von Untersuchungsberichten eine Analyse von Auffälligkeiten und Vorschläge zur Genesung liefern.
In der Unterhaltung unterstützt „Foto fragen – Quark“ Funktionen wie Anleitung für Kartenspiele, Serienfindung anhand von Screenshots, Paarfindung für Profilbilder und ermöglicht die einfache Durchführung von Hochskalierung, Wasserzeichenentfernung und Quellenverfolgung. Zusätzlich unterstützt die Funktion Fragen und Übersetzungen in verschiedenen Sprachen.