Megrez-3B-Omni
Modelo de comprensión multimodal de extremo a extremo de código abierto
Producto ComúnProductividadComprensión multimodalReconocimiento de imágenes
Megrez-3B-Omni es un modelo de comprensión multimodal de extremo a extremo desarrollado por Wuwen Xiongqiong, basado en la extensión del modelo de lenguaje grande Megrez-3B-Instruct. Posee la capacidad de comprender y analizar datos de tres modalidades: imágenes, texto y audio. Este modelo ha logrado la precisión óptima en la comprensión de imágenes, lenguaje y voz, admite la entrada de voz en chino e inglés y conversaciones de varias rondas, permite realizar preguntas de voz sobre imágenes de entrada y responder directamente con texto a instrucciones de voz, obteniendo resultados líderes en varias tareas de referencia.
Megrez-3B-Omni Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44