El laboratorio de IA de Shanghai lanza el primer modelo grande de creación de imágenes y texto mixto de código abierto, "Pǔyǔ língbǐ"

上海人工智能实验室

Publicado elNoticias de IA · 2 minutos de lectura · Oct 10, 2023

115

Recientemente, el Laboratorio de Inteligencia Artificial de Shanghai (Shanghai AI Lab) lanzó InternLM-XComposer, su primer gran modelo de creación de texto e imágenes mixtas, también conocido como "Shusheng·Puyu Lingbi". Puyu Lingbi puede mantener conversaciones fluidas de texto e imagen en chino e inglés, comprender con precisión el contenido de las imágenes y, además, ha desbloqueado la capacidad de "generación con un solo clic" de artículos con una mezcla de texto e imágenes. Los usuarios solo necesitan proporcionar un tema, y Puyu Lingbi puede generar automáticamente un artículo con imágenes y texto. Puyu Lingbi utiliza un proceso de algoritmo de "tres pasos" para crear artículos con texto e imágenes, que incluye la generación de texto, la planificación de ilustraciones y la selección inteligente de imágenes. En varias evaluaciones de modelos multimodales principales, el rendimiento de Puyu Lingbi se encuentra entre los mejores, especialmente en la comprensión multimodal en chino. Puyu Lingbi ya está disponible en plataformas de código abierto como GitHub, y se invita a los desarrolladores a probarlo e innovar con sus aplicaciones.

Modelo grande Multimodal Código abierto

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

¡Bomba en el mundo del código abierto! Step1X-Edit llega a Hugging Face: crea un nuevo mundo con lenguaje natural, ¡con rendimiento casi igual a GPT-4o!

Step1X-Edit, un modelo de generación de imágenes revolucionario, ha llegado a Hugging Face. Utiliza el lenguaje natural para crear imágenes impresionantes, con un rendimiento que se acerca al de GPT-4o. Descubre las posibilidades infinitas de esta herramienta de código abierto.

Apr 28, 2025

ChatDLM: El primer modelo de lenguaje de difusión global a punto de ser de código abierto, liderando un nuevo avance en la tecnología de IA

Apr 28, 2025

El primer programador de IA multimodal de China comienza a trabajar: se lanza oficialmente el agente inteligente Zulu de Wenxin Quick Code

La Conferencia de Desarrolladores de IA de Baidu Create se celebró con gran éxito en Pekín. En este evento tecnológico tan esperado, Baidu lanzó oficialmente la versión 3.5 de Wenxin Quick Code y el primer programador de IA multimodal de China, el agente inteligente Wenxin Quick Code Comate Zulu, lo que marca una nueva etapa en el desarrollo de las herramientas de programación de IA.

Apr 27, 2025

Boletín diario de IA: Nuevo modelo de audio básico Kimi-Audio; Modelo de edición de imágenes de código abierto Step1X-Edit; Lanzamiento de la Supercaja de IA de Quark, fotografía y preguntas a Quark

Apr 27, 2025

芯驰发布新一代4纳米AI座舱芯片X10，增强智能驾驶体验

芯驰科技发布了其新一代4纳米AI座舱芯片X10，旨在提升智能驾驶体验。该芯片采用先进的工艺技术和强大的计算能力，支持多种AI功能，例如高级驾驶辅助系统(ADAS)和车内娱乐系统。X10还集成了7B参数的多模态大模型，能够更好地理解用户需求并提供个性化服务。

Apr 27, 2025

Moonshot AI lanza Kimi-Audio: un modelo base de audio de código abierto que establece un nuevo estándar

Recientemente, Moonshot AI anunció oficialmente el lanzamiento de Kimi-Audio, un nuevo modelo base de audio de código abierto diseñado para impulsar el progreso tecnológico en las áreas de comprensión, generación e interacción de audio. Este lanzamiento ha generado un amplio interés en la comunidad global de IA y se considera un hito importante en el desarrollo de la IA multimodal. A continuación, se presenta un informe completo sobre las características principales, el rendimiento y la influencia en la industria de Kimi-Audio. Características innovadoras: Capacidad de procesamiento de audio integral Kimi-Audio-7B-Instruct basado en Qwen

Apr 27, 2025

Step1X-Edit: Nuevo referente en edición de imágenes de código abierto, a la altura de modelos cerrados como GPT-4o

Apr 27, 2025

La función de generación de imágenes de GPT-4 ahora está integrada en los GPT personalizados

Apr 27, 2025

Meta lanza el modelo WebSSL: una nueva exploración del aprendizaje visual sin lenguaje

En el campo de la inteligencia artificial, Meta ha presentado recientemente la serie de modelos WebSSL. Estos modelos, con tamaños que van desde 300 millones hasta 7 mil millones de parámetros, se entrenaron con datos de imágenes puras, con el objetivo de explorar el enorme potencial del aprendizaje autosupervisado visual (SSL) sin supervisión lingüística. Esta nueva investigación abre nuevas posibilidades para futuras tareas multimodales y ofrece una nueva perspectiva sobre cómo aprendemos a representar la información visual. Anteriormente, el modelo CLIP de OpenAI destacó por su rendimiento en tareas multimodales como la comprensión de preguntas visuales (VQA) y la comprensión de documentos.

Apr 25, 2025

¡30.5K estrellas! ¿Por qué esta joya de herramienta de IA para desarrolladores se ha vuelto viral?

Un proyecto de código abierto en GitHub llamado "system-prompts-and-models-of-ai-tools" ha llamado la atención, acumulando 30.5K estrellas y convirtiéndose en un recurso popular para desarrolladores e investigadores de IA. Según AIbase, este proyecto recopila indicaciones del sistema y configuraciones de modelos para 9 herramientas de IA populares, con más de 6500 líneas de código, que incluyen v0, Cursor, Manus, Same.dev, Lovable, Devin, Rep.

Apr 25, 2025

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

El laboratorio de IA de Shanghai lanza el primer modelo grande de creación de imágenes y texto mixto de código abierto, "Pǔyǔ língbǐ"

上海人工智能实验室

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

¡Bomba en el mundo del código abierto! Step1X-Edit llega a Hugging Face: crea un nuevo mundo con lenguaje natural, ¡con rendimiento casi igual a GPT-4o!

ChatDLM: El primer modelo de lenguaje de difusión global a punto de ser de código abierto, liderando un nuevo avance en la tecnología de IA

El primer programador de IA multimodal de China comienza a trabajar: se lanza oficialmente el agente inteligente Zulu de Wenxin Quick Code

Boletín diario de IA: Nuevo modelo de audio básico Kimi-Audio; Modelo de edición de imágenes de código abierto Step1X-Edit; Lanzamiento de la Supercaja de IA de Quark, fotografía y preguntas a Quark

芯驰发布新一代4纳米AI座舱芯片X10，增强智能驾驶体验

Moonshot AI lanza Kimi-Audio: un modelo base de audio de código abierto que establece un nuevo estándar

Step1X-Edit: Nuevo referente en edición de imágenes de código abierto, a la altura de modelos cerrados como GPT-4o

La función de generación de imágenes de GPT-4 ahora está integrada en los GPT personalizados

Meta lanza el modelo WebSSL: una nueva exploración del aprendizaje visual sin lenguaje

¡30.5K estrellas! ¿Por qué esta joya de herramienta de IA para desarrolladores se ha vuelto viral?