Fuyu-8B es un modelo de conversión de texto e imagen multimodal entrenado por Adept AI. Posee una arquitectura y un proceso de entrenamiento simplificados, fáciles de comprender, ampliar e implementar. Está diseñado específicamente para agentes digitales, admite cualquier resolución de imagen, responde preguntas sobre gráficos y diagramas, responde preguntas basadas en la interfaz de usuario y permite la localización precisa de imágenes de pantalla. Su respuesta es rápida, pudiendo procesar imágenes de gran tamaño en 100 milisegundos. A pesar de estar optimizado para nuestros casos de uso, presenta un buen rendimiento en pruebas de referencia de comprensión de imágenes estándar, como preguntas y respuestas visuales y subtitulado de imágenes naturales. Tenga en cuenta que el modelo que publicamos es un modelo base; le recomendamos que lo ajuste según sus casos de uso específicos, como subtítulos extensos o chats multimodales. En nuestra experiencia, el modelo funciona bien con aprendizaje de pocos ejemplos y ajuste fino para diversos casos de uso.