Avance en los grandes modelos de ByteDance: introducción de la localización visual, comprensión multimodal de grano fino y código abierto

新智元

Publicado elNoticias de IA · 2 minutos de lectura · Aug 15, 2023

BuboGPT: Un Modelo de Comprensión Multimodal

Este artículo presenta BuboGPT, un nuevo modelo desarrollado por ByteDance. BuboGPT destaca por su capacidad de comprensión multimodal, integrando texto, imágenes y audio. Una característica innovadora es la introducción de la tecnología de localización visual, permitiendo la identificación precisa de objetos dentro de las imágenes.

Los investigadores emplearon un esquema de entrenamiento con ajuste de instrucciones multimodales, lo que ha resultado en un excelente rendimiento de BuboGPT en diversas tareas multimodales. El modelo ya ha sido publicado como código abierto y se ofrece una demostración interactiva.

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Recientemente, la comunidad Modelers lanzó oficialmente Step-Video y Step-Audio, dos modelos multimodales de código abierto desarrollados por Step-Video. Estos dos modelos se utilizan para la generación de video e interacción de voz, con el objetivo de proporcionar herramientas de IA más potentes para desarrolladores y empresas. El nombre completo del modelo Step-Video es Step-Video-T2V, un modelo de generación de video de código abierto, el más grande del mundo, con una capacidad de 30 mil millones de parámetros. Este modelo puede generar directamente videos de 20 segundos...

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Hedra ha presentado Character-3 y Hedra Studio, dos innovaciones que marcan un hito en la tecnología de avatares digitales. Estos avances permiten la inferencia conjunta de imagen, texto y audio, abriendo nuevas posibilidades para la creación de experiencias inmersivas y realistas en diversas aplicaciones.

¡Gran avance en la recuperación multimodal!智源 publica el modelo de vector multimodal BGE-VL

El 6 de marzo, el Instituto de Inteligencia Artificial de Beijing anunció la publicación del modelo de vector multimodal BGE-VL, un logro que marca un gran avance en el campo de la recuperación multimodal. El modelo BGE-VL ha logrado los mejores resultados en tareas de recuperación multimodal como la recuperación de imágenes y texto y la recuperación de imágenes combinadas, mejorando significativamente el rendimiento de la recuperación multimodal.

Noticias de IA

Avance en los grandes modelos de ByteDance: introducción de la localización visual, comprensión multimodal de grano fino y código abierto

新智元

BuboGPT: Un Modelo de Comprensión Multimodal

Noticias de IA relacionadas recomendadas

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Cohere lanza Aya Vision, un nuevo modelo de IA multimodal, en versiones de 32B y 8B

¡Gran avance en la recuperación multimodal!智源 publica el modelo de vector multimodal BGE-VL