Aquila-VL-2B-llava-qwen
Visuell-linguistisches Modell, das Bild- und Textinformationen zur intelligenten Verarbeitung kombiniert.
Normales ProduktBildVisuell-linguistisches ModellMultimodal
Das Aquila-VL-2B-Modell ist ein visuell-linguistisches Modell (VLM), das auf dem LLaVA-One-Vision-Framework trainiert wurde. Es verwendet das Qwen2.5-1.5B-instruct-Modell als Sprachmodell (LLM) und siglip-so400m-patch14-384 als visuelle Komponente. Das Modell wurde auf dem selbst erstellten Infinity-MM-Datensatz trainiert, der etwa 40 Millionen Bild-Text-Paare enthält. Dieser Datensatz kombiniert öffentlich zugängliche Daten aus dem Internet mit synthetischen Anweisungsdaten, die mit einem Open-Source-VLM-Modell generiert wurden. Die Open-Source-Veröffentlichung des Aquila-VL-2B-Modells zielt darauf ab, die Entwicklung multimodaler Fähigkeiten, insbesondere in der kombinierten Verarbeitung von Bildern und Texten, voranzutreiben.
Aquila-VL-2B-llava-qwen Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44