¡Qwen-VL, el nuevo modelo de lenguaje visual de Alibaba Cloud, permite a Tongyi Qianwen ver imágenes!

AI前线

Publicado elNoticias de IA · 2 minutos de lectura · Aug 25, 2023

Alibaba Cloud ha lanzado código abierto para el modelo de lenguaje visual Qwen-VL, el cual se suma a los modelos de lenguaje de código abierto Qwen-7B y Qwen-7B-Chat (lanzados en agosto), consolidándose como otro gran modelo de código abierto. Qwen-VL admite chino e inglés y puede utilizarse en diversas aplicaciones, como preguntas y respuestas sobre conocimiento, generación de títulos de imágenes y preguntas y respuestas sobre imágenes. En comparación con otros modelos, Qwen-VL puede realizar una localización de dominio abierto en chino y etiquetar con precisión los cuadros delimitadores en las imágenes. Desarrollado basándose en Qwen-7B, Qwen-VL incorpora un codificador visual que admite la entrada de imágenes. En las pruebas realizadas en múltiples tareas de lenguaje visual, Qwen-VL ha obtenido los mejores resultados entre modelos similares. Qwen-VL ya está disponible en plataformas de código abierto como ModelScope. La multimodalidad es una dirección importante en el desarrollo de grandes modelos, aunque todavía presenta ciertos desafíos tecnológicos.

Alibaba Cloud Tongyi Qianwen Qwen-VL código abierto modelo de lenguaje visual

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

¡Bomba en el mundo del código abierto! Step1X-Edit llega a Hugging Face: crea un nuevo mundo con lenguaje natural, ¡con rendimiento casi igual a GPT-4o!

Step1X-Edit, un modelo de generación de imágenes revolucionario, ha llegado a Hugging Face. Utiliza el lenguaje natural para crear imágenes impresionantes, con un rendimiento que se acerca al de GPT-4o. Descubre las posibilidades infinitas de esta herramienta de código abierto.

Apr 28, 2025

ChatDLM: El primer modelo de lenguaje de difusión global a punto de ser de código abierto, liderando un nuevo avance en la tecnología de IA

Apr 28, 2025

Boletín diario de IA: Nuevo modelo de audio básico Kimi-Audio; Modelo de edición de imágenes de código abierto Step1X-Edit; Lanzamiento de la Supercaja de IA de Quark, fotografía y preguntas a Quark

Apr 27, 2025

Moonshot AI lanza Kimi-Audio: un modelo base de audio de código abierto que establece un nuevo estándar

Recientemente, Moonshot AI anunció oficialmente el lanzamiento de Kimi-Audio, un nuevo modelo base de audio de código abierto diseñado para impulsar el progreso tecnológico en las áreas de comprensión, generación e interacción de audio. Este lanzamiento ha generado un amplio interés en la comunidad global de IA y se considera un hito importante en el desarrollo de la IA multimodal. A continuación, se presenta un informe completo sobre las características principales, el rendimiento y la influencia en la industria de Kimi-Audio. Características innovadoras: Capacidad de procesamiento de audio integral Kimi-Audio-7B-Instruct basado en Qwen

Apr 27, 2025

Step1X-Edit: Nuevo referente en edición de imágenes de código abierto, a la altura de modelos cerrados como GPT-4o

Apr 27, 2025

¡30.5K estrellas! ¿Por qué esta joya de herramienta de IA para desarrolladores se ha vuelto viral?

Un proyecto de código abierto en GitHub llamado "system-prompts-and-models-of-ai-tools" ha llamado la atención, acumulando 30.5K estrellas y convirtiéndose en un recurso popular para desarrolladores e investigadores de IA. Según AIbase, este proyecto recopila indicaciones del sistema y configuraciones de modelos para 9 herramientas de IA populares, con más de 6500 líneas de código, que incluyen v0, Cursor, Manus, Same.dev, Lovable, Devin, Rep.

Apr 25, 2025

Máquina virtual blockchain con el primer framework de desarrollo de modelos grandes integrado, de código abierto a nivel mundial

Apr 24, 2025

Kunlun Wanwei lanza la versión 2.0 de código abierto de Skywork-R1V: mejora de la capacidad de razonamiento visual y de texto

El 24 de abril, Kunlun Wanwei anunció el lanzamiento oficial de código abierto de su modelo de razonamiento multimodal Skywork-R1V2.0 (en adelante, R1V2.0). Esta versión mejorada ha logrado mejoras significativas en la capacidad de razonamiento visual y de texto, especialmente en la inferencia profunda de problemas de ciencias de la prueba de ingreso a la universidad y en escenarios de tareas generales, lo que lo convierte en el modelo multimodal de código abierto más equilibrado que combina la capacidad de razonamiento visual y de texto.

Apr 24, 2025

AWS lanza SWE-PolyBench: un nuevo benchmark de código abierto para evaluar asistentes de programación con IA

Recientemente, AWS AI Labs ha presentado SWE-PolyBench, un benchmark de código abierto multilingüe diseñado para ofrecer un marco más completo para la evaluación de asistentes de programación con IA. Con los avances en los modelos de lenguaje a gran escala (LLM), el desarrollo de asistentes de programación con IA ha progresado significativamente, permitiendo la generación, modificación y comprensión de código de software. Sin embargo, los métodos de evaluación actuales presentan varias limitaciones; muchas pruebas de referencia se centran en un solo lenguaje, como Python, sin reflejar la realidad de forma completa.

Apr 24, 2025

Boletín diario de IA: Lanzamiento de la versión 2.5 del modelo de generación 3D de Tencent HunYuan; Haier lanza función de referencia de personajes de imágenes; Baidu lanza la aplicación móvil de súper inteligencia artificial Xinxiang

Apr 23, 2025

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

¡Qwen-VL, el nuevo modelo de lenguaje visual de Alibaba Cloud, permite a Tongyi Qianwen ver imágenes!

AI前线

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

¡Bomba en el mundo del código abierto! Step1X-Edit llega a Hugging Face: crea un nuevo mundo con lenguaje natural, ¡con rendimiento casi igual a GPT-4o!

ChatDLM: El primer modelo de lenguaje de difusión global a punto de ser de código abierto, liderando un nuevo avance en la tecnología de IA

Boletín diario de IA: Nuevo modelo de audio básico Kimi-Audio; Modelo de edición de imágenes de código abierto Step1X-Edit; Lanzamiento de la Supercaja de IA de Quark, fotografía y preguntas a Quark

Moonshot AI lanza Kimi-Audio: un modelo base de audio de código abierto que establece un nuevo estándar

Step1X-Edit: Nuevo referente en edición de imágenes de código abierto, a la altura de modelos cerrados como GPT-4o

¡30.5K estrellas! ¿Por qué esta joya de herramienta de IA para desarrolladores se ha vuelto viral?

Máquina virtual blockchain con el primer framework de desarrollo de modelos grandes integrado, de código abierto a nivel mundial

Kunlun Wanwei lanza la versión 2.0 de código abierto de Skywork-R1V: mejora de la capacidad de razonamiento visual y de texto

AWS lanza SWE-PolyBench: un nuevo benchmark de código abierto para evaluar asistentes de programación con IA

Boletín diario de IA: Lanzamiento de la versión 2.5 del modelo de generación 3D de Tencent HunYuan; Haier lanza función de referencia de personajes de imágenes; Baidu lanza la aplicación móvil de súper inteligencia artificial Xinxiang