En la Cumbre FORCE de Volcano Engine del 18 de diciembre de 2024, Volcano Engine anunció una actualización completa de su familia de modelos de lenguaje grande Doubao y el lanzamiento de un nuevo modelo de comprensión visual.

image.png

El presidente de Volcano Engine, Tan Dai, declaró que el uso diario de tokens del modelo de lenguaje grande Doubao ha aumentado drásticamente en los últimos meses, alcanzando más de 4 billones, un incremento de 33 veces en comparación con su lanzamiento en mayo. Esta tendencia al alza muestra el amplio uso del modelo de lenguaje grande Doubao en múltiples escenarios de aplicación.

image.png

En esta ocasión, Volcano Engine, mediante la introducción del modelo de comprensión visual, permite a los usuarios introducir simultáneamente texto e imágenes, permitiendo al modelo comprender ambos y proporcionar respuestas precisas. Esta innovación simplificará considerablemente el proceso de desarrollo de aplicaciones y activará el potencial de los modelos de lenguaje grande en más escenarios.

El modelo de comprensión visual posee una capacidad de reconocimiento de contenido superior, pudiendo identificar no solo elementos básicos como la categoría y forma de los objetos en una imagen, sino también las relaciones entre ellos, la disposición espacial y el significado general de la escena. Por ejemplo, puede reconocer sombras o información de conocimiento general.

image.png

El modelo de comprensión visual cuenta con una mayor capacidad de comprensión e inferencia; no solo identifica mejor el contenido, sino que también puede realizar cálculos lógicos complejos basándose en la información textual e imagénica reconocida, como inferencia de gráficos o inferencia física.

image.png

Además, ofrece una capacidad de descripción visual más detallada, pudiendo describir con mayor precisión el contenido de una imagen basándose en la información de la misma, e incluso realizar creaciones de diversos estilos literarios, como la creación de imágenes o poemas a partir de imágenes.

image.png

El modelo de comprensión visual Doubao presenta un amplio potencial de aplicación en diversos sectores como la educación, el turismo y el comercio electrónico. Por ejemplo, en el ámbito educativo, el modelo puede ayudar a los estudiantes a mejorar sus redacciones y conocimientos científicos; en el turismo, puede ofrecer a los turistas traducciones de menús en idiomas extranjeros y explicaciones sobre el contexto histórico de los edificios; y en el marketing electrónico, puede ayudar a los comerciantes a describir detalladamente las características de los productos, mejorando así la eficacia de la publicidad.

El coste de uso del modelo de comprensión visual es muy asequible: 0,003 yuanes por cada mil tokens, un 85% menos que la media del sector. Este precio permite procesar hasta 284 imágenes de 720p por cada yuan, lo que significa que la tecnología de comprensión visual ha entrado en la "era del céntimo". Además, Volcano Engine ofrece a empresas y desarrolladores un soporte inicial de hasta 15.000 usos, para ayudarles a aprovechar mejor esta tecnología.

image.png

En esta cumbre, Volcano Engine no solo presentó el modelo de comprensión visual, sino que también actualizó otros modelos. La capacidad de procesamiento de tareas generales del modelo Doubao Pro ha mejorado un 32% desde mayo, con mejoras significativas en áreas como la inferencia, el seguimiento de instrucciones, el código y las matemáticas. Además, el modelo de generación de vídeo Doubao estará disponible a partir de enero de 2025, pudiendo las empresas solicitar su uso.

image.png

image.png

Para mejorar la capacidad de obtención de información y recomendación de búsqueda de las empresas, Volcano Engine también lanzó el servicio de búsqueda AI omnicanal, ayudando a las empresas a conectar mejor la información con las necesidades de los usuarios y a impulsar la transformación inteligente de diversos sectores.

Puntos clave:

🔍 El uso diario de tokens del modelo de lenguaje grande Doubao alcanza los 4 billones, un aumento de 33 veces respecto a mayo.

💡 El nuevo modelo de comprensión visual admite la entrada simultánea de texto e imágenes, siendo adecuado para sectores como la educación, el turismo y el comercio electrónico.

💰 El coste de uso es de solo 0,003 yuanes por cada mil tokens, significativamente inferior a la media del sector.