Von ByteDance und Universitäten entwickelt! STAR-Modell: Verbesserung der Videoauflösung und -schärfe

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 3 Minuten Lesezeit · Jan 9, 2025

587

Ein Forschungsteam der Nanjing Universität hat in Zusammenarbeit mit ByteDance und der Southwest University eine innovative Technologie namens STAR (Spatial-Temporal Augmentation with Text-to-Video Models) vorgestellt. Diese Technologie nutzt Text-zu-Video-Modelle, um die Superauflösung von realen Videos zu ermöglichen. Durch die Kombination mit räumlich-zeitlichen Verbesserungsmethoden wird die Qualität von Videos niedriger Auflösung deutlich verbessert, insbesondere von solchen, die von Video-Sharing-Plattformen heruntergeladen wurden.

Für Forscher und Entwickler wurde auf GitHub eine vorab trainierte Version des STAR-Modells veröffentlicht, einschließlich der Modelle I2VGen-XL und CogVideoX-5B sowie des zugehörigen Inferenzcodes. Die Bereitstellung dieser Tools stellt einen wichtigen Fortschritt im Bereich der Videoverarbeitung dar.

Die Verwendung des Modells ist relativ einfach. Zunächst muss der vorab trainierte STAR-Modell von HuggingFace heruntergeladen und in das angegebene Verzeichnis verschoben werden. Anschließend wird die zu testende Videodatei vorbereitet und eine geeignete Textaufforderung ausgewählt, einschließlich keiner Aufforderung, automatischer Generierung oder manueller Eingabe. Der Benutzer muss lediglich die Pfadangaben im Skript anpassen, um die Video-Superauflösung einfach durchführen zu können.

Das Projekt beinhaltet speziell zwei auf I2VGen-XL basierende Modelle für unterschiedlich stark degradierte Videos, um diverse Anforderungen zu erfüllen. Darüber hinaus unterstützt das CogVideoX-5B-Modell speziell das Eingabeformat 720x480 und bietet so flexible Optionen für bestimmte Szenarien.

Diese Forschung liefert nicht nur neue Ansätze für die Entwicklung von Video-Superauflösungstechnologien, sondern eröffnet auch neue Forschungsrichtungen für Wissenschaftler in diesem Bereich. Das Forschungsteam bedankt sich für die innovativen Technologien I2VGen-XL, VEnhancer, CogVideoX und OpenVid-1M, die als Grundlage für dieses Projekt dienten.

Projektseite: https://github.com/NJU-PCALab/STAR

Highlights:
🌟 Die neue Technologie STAR kombiniert Text-zu-Video-Modelle zur Video-Superauflösung und verbessert die Videoqualität.
🛠️ Das Forschungsteam hat vorab trainierte Modelle und Inferenzcodes veröffentlicht; die Anwendung ist einfach und unkompliziert.
📩 Kontaktinformationen werden bereitgestellt, um den Austausch und die Diskussion zwischen Nutzern und dem Forschungsteam zu fördern.

Huawei Ascend und Step-Video starten Open-Source-Multimodal-Modell für neue KI-Bereiche

Kürzlich wurde die Modelers-Community (魔乐社区) offiziell mit Step-Video und Step-Audio, zwei Open-Source-Multimodal-Großsprachemodellen, die von Step-Video entwickelt wurden, ins Leben gerufen. Diese beiden Modelle werden jeweils für die Videogenerierung und die Sprachinteraktion verwendet und sollen Entwicklern und Unternehmen leistungsstärkere KI-Tools bieten. Das Step-Video-Modell trägt den vollständigen Namen Step-Video-T2V und ist mit 300 Milliarden Parametern das weltweit größte Open-Source-Videogenerierungsmodell. Das Modell kann direkt 20...

Unitree Robotics startet Crossborder-E-Commerce-Offensive: Offizieller Shop auf AliExpress mit Milliarden-Subventionen für diverse Produkte

Der chinesische Roboterhersteller Unitree Robotics hat seinen offiziellen Shop auf AliExpress eröffnet und bietet dort eine Reihe von Produkten mit Unterstützung durch ein Milliarden-Subventionsprogramm an. Dies markiert einen bedeutenden Schritt des Unternehmens in den internationalen E-Commerce-Markt.

Luo Yonghaos AR -Startup Xihong Line Technology startet Frühlingsrekrutierung und wendet sich der Entwicklung von KI -Systemen zu

Die AR-Startup-Firma Thin Red Line von Luo Yonghao hat kürzlich ihren Frühlingsrecruiting-Prozess für 2025 gestartet und viel Aufmerksamkeit erregt. Alle derzeit angebotenen Vollzeitstellen sind im Bereich Produktmanagement angesiedelt, darunter Senior Software Product Manager, AI Software Product Manager, IM Software Product Manager, BI Data Product Manager und Commercialization Product Manager. Die Arbeitsorte sind Shanghai und Peking, wobei die Gehaltsangaben nicht öffentlich gemacht wurden. Berichten von Branchenmedien wie 36Kr zufolge konzentriert sich Luo Yonghaos jüngstes Unternehmen...

KI-Nachrichten und -Informationen

Von ByteDance und Universitäten entwickelt! STAR-Modell: Verbesserung der Videoauflösung und -schärfe

AIbase基地

Empfohlene verwandte KI-Nachrichten

Huawei Ascend und Step-Video starten Open-Source-Multimodal-Modell für neue KI-Bereiche

Unitree Robotics startet Crossborder-E-Commerce-Offensive: Offizieller Shop auf AliExpress mit Milliarden-Subventionen für diverse Produkte

Luo Yonghaos AR -Startup Xihong Line Technology startet Frühlingsrekrutierung und wendet sich der Entwicklung von KI -Systemen zu

KI-Unterricht startet an allen Pekinger Grund- und Mittelschulen im Herbstsemester