Die in Peking ansässige TuSimple Future Technology Co., Ltd. hat am 17. Dezember 2024 offiziell ihr erstes großes „Bildgenerierungs-Video“-Modell „Ruyi“ veröffentlicht und die Ruyi-Mini-7B-Version als Open Source bereitgestellt, sodass Benutzer sie von der Hugging Face Plattform herunterladen können. TuSimple Future wurde 2015 gegründet, hat seinen Hauptsitz in San Diego, Kalifornien, und konzentriert sich auf die Anwendung von KI-Technologien in verschiedenen Branchen, darunter Animations- und Videospiele sowie Verkehr.

Das Ruyi-Großmodell wurde speziell für den Betrieb auf Consumer-Grafikkarten entwickelt und bietet detaillierte Bereitstellungsanweisungen und einen ComfyUI-Workflow für eine schnelle Inbetriebnahme. Das Modell zeichnet sich durch seine hervorragende Leistung in Bezug auf Zwischenbildkonsistenz, flüssige Bewegungen, Farbgebung und Bildkomposition aus und bietet neue Möglichkeiten für visuelles Storytelling. Es wurde speziell für Anime- und Spielszenen trainiert und ist der ideale kreative Partner für ACG-Enthusiasten.

微信截图_20241217140324.png

Das Ruyi-Modell unterstützt die Generierung mit mehreren Auflösungen und Längen und kann Auflösungen von 384×384 bis 1024×1024, beliebige Seitenverhältnisse und maximal 120 Frames/5 Sekunden Video generieren. Es unterstützt auch die Generierung mit Steuerungsfunktionen für das erste und letzte Bild, die Steuerung der Bewegungsamplitude und fünf Arten der Kamerasteuerung. Ruyi basiert auf der DiT-Architektur, die aus einem Casual VAE-Modul und einem Diffusion Transformer besteht. Die Gesamtparameterzahl beträgt etwa 7,1 Milliarden, und das Modell wurde mit etwa 200 Millionen Videoclips trainiert.

Obwohl Ruyi technisch gesehen erhebliche Fortschritte gemacht hat, weist es immer noch einige Mängel auf, wie z. B. Handverformungen, den Zusammenbruch von Gesichtsdetails bei mehreren Personen und unkontrollierbare Übergänge. TuSimple Future arbeitet intensiv an der Verbesserung und Behebung dieser Probleme in zukünftigen Updates.

Für die Zukunft plant TuSimple Future, die Szenenanforderungen weiter zu vertiefen, den Durchbruch bei der direkten Generierung von CUTs zu erreichen und in der nächsten Version zwei Versionen anzubieten, um den Bedürfnissen verschiedener Entwickler gerecht zu werden. Das Unternehmen ist bestrebt, durch Großmodelle die Entwicklungszeit und -kosten von Anime- und Spielinhalten zu senken. Das Ruyi-Großmodell kann bereits 5 Sekunden Inhalt aus einem Keyframe generieren oder aus zwei Keyframes einen Übergang generieren, wodurch die Entwicklungszeit verkürzt wird.

Hugging Face Link:

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B