Google veröffentlicht VideoPoet, ein Video-Generierungsmodell für bis zu 10 Sekunden lange Videos und Audio

36氪

Veröffentlicht amKI-Nachrichten und -Informationen · 1 Minuten Lesezeit · Dec 22, 2023

Am 19. Dezember veröffentlichte Google das Video-Generierungsmodell VideoPoet. Dieses Modell kann Videos mit einer Länge von bis zu 10 Sekunden erstellen und gleichzeitig automatisch passende Musik und Soundeffekte zum Videomaterial generieren. VideoPoet verlängert Videos, indem es wiederholt die nächste Frame basierend auf der letzten Frame vorhersagt, wodurch der Eindruck entsteht, dass das Video unbegrenzt verlängert werden kann. Im Gegensatz zu anderen Modellen verwendet VideoPoet ein großes Sprachmodell anstelle eines Diffusionsmodells. Daher integriert es Funktionen wie Text-zu-Video, Videoreparatur und Videostyling in einem einzigen Modell, was eine flexiblere Anwendung ermöglicht.

Videogenerierung Text-zu-Video Multimodal

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

SenseTime präsentiert neues multimodales großes Sprachmodell und gestaltet die Zukunft der Interaktion

Am 10. April präsentierte SenseTime auf seinem Technologie-Austauschtag sein neuestes multimodales großes Sprachmodell, SenseTime SenseNova V6, und das SenseCore 2.0 System. Dieses neue große Sprachmodell zielt darauf ab, Text-, Bild- und Videoinformationen zu integrieren und den Benutzern ein natürlicheres und reichhaltigeres interaktives Erlebnis zu bieten. Die SenseNova V6-Serie umfasst vier Versionen, wobei SenseNova V6Pro besonders hervorzuheben ist.

Apr 10, 2025

KI-Tagesbericht: Alibaba und Tencent unterstützen umfassend das MCP-Protokoll; Step-R1-V-Mini, ein multimodales Inferenzmodell von Leapstar; Miracle F1, ein Bildgenerierungsmodell von Meitu WHEE

Willkommen beim Abschnitt "KI-Tagesbericht"! Hier finden Sie täglich einen Überblick über die Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen täglich die wichtigsten Themen aus dem KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, Technologietrends zu verstehen und innovative KI-Produktanwendungen kennenzulernen. Neue KI-Produkte finden Sie hier: https://top.aibase.com/1、Alibaba hat die umfassende Unterstützung des MCP-Protokolls angekündigt, Tencent folgt kurz darauf. Kürzlich hat die chinesische KI-Branche einen Wandel bei technischen Standards erlebt, wobei das ModelContextProtocol (MCP) zum Standard in China geworden ist.

Apr 9, 2025

Step-R1-V-Mini: Neues multimodaler Inferenzmodell von Jieyue Xingchen

Das Team von Jieyue Xingchen Technology gibt die offizielle Veröffentlichung des neuen multimodalen Inferenzmodells Step-R1-V-Mini bekannt. Die Einführung dieses Modells markiert einen Durchbruch im Bereich der multimodalen kooperativen Inferenz und verleiht der Weiterentwicklung der KI-Technologie neue Impulse. Step-R1-V-Mini unterstützt Bild- und Texteingaben sowie Textausgaben, verfügt über eine gute Fähigkeit zur Befolgung von Anweisungen und ist vielseitig einsetzbar. Es kann Bilder mit hoher Genauigkeit erfassen und komplexe Inferenzaufgaben bewältigen.

Apr 9, 2025

La función de conversación visual en vivo de Gemini llega a Pixel 9: el asistente de IA avanza hacia una nueva etapa de interacción multimodal

Apr 8, 2025

Google integriert multimodalen Suchmodus in KI-Modus: Nutzer können nach Bildinhalten fragen

Apr 8, 2025

Meta gibt die Open-Source-Veröffentlichung des nativen multimodalen Llama 4 mit beeindruckender Leistung bekannt

Der US-amerikanische Technologiekonzern Meta hat sein leistungsstärkstes Open-Source-KI-Modell Llama 4 vorgestellt. Die erste Veröffentlichung umfasst zwei Modelle: Llama4Scout und Llama4Maverick. Llama4Scout verfügt über 109 Milliarden Parameter, 17 Milliarden aktive Parameter und 16 Experten. Sein herausragendstes Merkmal ist die Unterstützung von 10 Millionen Kontextfenstern, was der Verarbeitung von über 20 Stunden Videomaterial entspricht und auf nur einer einzigen H100-GPU (nach Int4-Quantisierung) ausgeführt werden kann.

Apr 6, 2025

Neuer multimodales Framework unterstützt Protein Design – KI führt Biotechnik-Revolution an

Im Bereich der Biotechnologie treibt der Einsatz von künstlicher Intelligenz die Entdeckung und das Design von Proteinen rasant voran. Kürzlich haben Forscherteams der University of California, Berkeley (UC Berkeley), und des California Institute of Technology (Caltech) ein neues multimodales Framework namens ProteinDT entwickelt, das Textbeschreibungen zur Unterstützung des Protein Designs nutzt. Dieses innovative Verfahren kombiniert nicht nur Proteinsequenz- und Strukturinformationen, sondern integriert auch umfangreiches, textbasiertes biologisches Wissen und eröffnet damit ein neues Kapitel im Protein Design. Pro

Apr 3, 2025

Lenovo CTO: Setzt auf multimodale KI-Zusammenarbeit, baut Modellfabrik für schnellere Implementierung intelligenter Agenten

Mar 31, 2025

KI-Tagesbericht: Taobao startet KI-Fake-Bild-Bekämpfung; OpenAI kündigt Unterstützung für MCP-Protokoll an; Alibaba veröffentlicht das multimodale Modell Qwen2.5-Omni

Willkommen beim "KI-Tagesbericht"! Hier finden Sie täglich die wichtigsten Neuigkeiten aus der Welt der Künstlichen Intelligenz. Wir konzentrieren uns auf Entwickler und informieren Sie über Technologietrends und innovative KI-Anwendungen. Neue KI-Produkte finden Sie hier: https://top.aibase.com/1、Alibaba Cloud's Tongyi Qianwen veröffentlicht das neue End-to-End-Multimodale Modell Qwen2.5-Omni. Das Team von Alibaba Cloud Tongyi Qianwen hat Qwen2.5-Omni vorgestellt, ein neues Multimodales Modell...

Mar 27, 2025

Alibaba veröffentlicht sein erstes multimodalen großes Sprachmodell Qwen2.5-Omni und fordert globale Technologiekonzerne heraus

Am 27. März stellte Alibaba in den frühen Morgenstunden sein erstes multimodalen großes Sprachmodell vor – Tongyi Qianwen Qwen2.5-Omni-7B. Dieses Modell verfügt über leistungsstarke Funktionen und kann verschiedene Eingaben wie Text, Bilder, Audio und Video verarbeiten und gleichzeitig Text und natürliche Sprache in Echtzeit generieren. Dieser innovative technologische Durchbruch markiert einen weiteren Fortschritt von Alibaba im Bereich der künstlichen Intelligenz. Im OmniBench-Benchmark, einem autoritativen Test für multimodale Fusionsaufgaben, erzielte Qwen2.5-Omni...

Mar 27, 2025

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick