Shanghaier KI-Labor veröffentlicht erstes Open-Source-Modell für die Erstellung von Text-Bild-Mixes: „Pǔyǔ Língbǐ“

上海人工智能实验室

Veröffentlicht amKI-Nachrichten und -Informationen · 2 Minuten Lesezeit · Oct 10, 2023

110

Das Shanghai Artificial Intelligence Laboratory (Shanghai AI Lab) hat kürzlich sein erstes großes, multimodalen Modell für die Erstellung von Text-Bild-Kombinationen vorgestellt: InternLM-XComposer (auch bekannt als „Sheng·Puyu Lingbi“). InternLM-XComposer ermöglicht flüssige Text-Bild-Dialoge auf Chinesisch und Englisch, versteht Bildinhalte präzise und bietet die Möglichkeit, Text-Bild-Artikel mit nur einem Klick zu erstellen. Der Benutzer muss lediglich ein Thema angeben, und InternLM-XComposer generiert einen bebilderten Artikel. InternLM-XComposer verwendet einen dreistufigen Algorithmus zur Erstellung von Text-Bild-Artikeln: Textgenerierung, Illustrationsplanung und intelligente Bildauswahl. In mehreren gängigen Benchmarks für multimodale Modelle erzielte InternLM-XComposer Spitzenergebnisse, insbesondere beim Verständnis multimodaler Inhalte in chinesischer Sprache. InternLM-XComposer ist auf Plattformen wie GitHub Open Source verfügbar und steht Entwicklern für Tests und innovative Anwendungen zur Verfügung.

Alibaba Tongyi Team veröffentlicht R1-Omni: Ein multimodales Modell zur Transparenz von Audio- und Videodaten

Das Alibaba Tongyi Team hat R1-Omni, ein Open-Source-Multimodalmodell, veröffentlicht, das die Transparenz von Audio- und Videodaten ermöglicht. Das Modell bietet Einblicke in die Verarbeitung von multimodalen Informationen und trägt zur Verbesserung der Verständlichkeit und Interpretierbarkeit von KI-Systemen bei.

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Hedra ha presentado Character-3 y Hedra Studio, dos innovaciones que marcan un hito en la tecnología de avatares digitales. Estos avances permiten la inferencia conjunta de imagen, texto y audio, abriendo nuevas posibilidades para la creación de experiencias inmersivas y realistas en diversas aplicaciones.

KI-Nachrichten und -Informationen

Shanghaier KI-Labor veröffentlicht erstes Open-Source-Modell für die Erstellung von Text-Bild-Mixes: „Pǔyǔ Língbǐ“

上海人工智能实验室

Empfohlene verwandte KI-Nachrichten

Alibaba Tongyi Team veröffentlicht R1-Omni: Ein multimodales Modell zur Transparenz von Audio- und Videodaten

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Baidu Research veröffentlicht BGE-VL, ein multimodales Vektormodell – der Beginn einer neuen Ära der Informationsbeschaffung

Cohere veröffentlicht neues multimodales KI-Modell Aya Vision in 32B- und 8B-Versionen