Aquila-VL-2B-llava-qwen

Visuell-linguistisches Modell, das Bild- und Textinformationen zur intelligenten Verarbeitung kombiniert.

Normales ProduktBildVisuell-linguistisches ModellMultimodal
Das Aquila-VL-2B-Modell ist ein visuell-linguistisches Modell (VLM), das auf dem LLaVA-One-Vision-Framework trainiert wurde. Es verwendet das Qwen2.5-1.5B-instruct-Modell als Sprachmodell (LLM) und siglip-so400m-patch14-384 als visuelle Komponente. Das Modell wurde auf dem selbst erstellten Infinity-MM-Datensatz trainiert, der etwa 40 Millionen Bild-Text-Paare enthält. Dieser Datensatz kombiniert öffentlich zugängliche Daten aus dem Internet mit synthetischen Anweisungsdaten, die mit einem Open-Source-VLM-Modell generiert wurden. Die Open-Source-Veröffentlichung des Aquila-VL-2B-Modells zielt darauf ab, die Entwicklung multimodaler Fähigkeiten, insbesondere in der kombinierten Verarbeitung von Bildern und Texten, voranzutreiben.
Website öffnen

Aquila-VL-2B-llava-qwen Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

Aquila-VL-2B-llava-qwen Besuchstrend

Aquila-VL-2B-llava-qwen Geografische Verteilung der Besuche

Aquila-VL-2B-llava-qwen Traffic-Quellen

Aquila-VL-2B-llava-qwen Alternativen