Am 27. Februar 2025 veröffentlichte Tencent offiziell das neue, schnell denkende Modell Hun Yuan Turbo S. Dies markiert einen bedeutenden Durchbruch in der Geschwindigkeit und Leistungsoptimierung von großen Sprachmodellen. Im Gegensatz zu traditionellen langsam denkenden Modellen wie DeepSeek R1 und Hun Yuan T1 ermöglicht Hun Yuan Turbo S eine „Sekunden-Antwort“ und steigert die Geschwindigkeit der Ausgabe erheblich. Die Schreibgeschwindigkeit wurde verdoppelt, und die Latenzzeit des ersten Zeichens wurde um 44 % reduziert. Diese Innovation führt zu hervorragenden Leistungen des Modells in verschiedenen Bereichen wie Wissen, Mathematik und Kreativität und bietet eine neue Lösung für schnell reagierende große Sprachmodelle.

Die Inspiration für Hun Yuan Turbo S stammt von der menschlichen Entscheidungsfindung, die zu 90 % bis 95 % auf Intuition (schnelles Denken) basiert. In Kombination mit rationaler Analyse (langsames Denken) bietet es große Sprachmodelle eine intelligentere und effizientere Problemlösungsfähigkeit. Durch die Fusion von kurzen und langen Denkprozessen behält das Modell nicht nur bei geisteswissenschaftlichen Fragen ein schnelles Benutzererlebnis bei, sondern verbessert auch deutlich die Fähigkeiten im naturwissenschaftlichen Denken. Die Gesamtleistung wurde erheblich gesteigert. In mehreren branchenüblichen, öffentlich zugänglichen Benchmark-Tests zeigt Hun Yuan Turbo S vergleichbare Ergebnisse wie führende Modelle wie DeepSeek V3, GPT4o und Claude.

微信截图_20250227173715.png

In Bezug auf Architekturinnovationen verwendet Hun Yuan Turbo S ein Hybrid-Mamba-Transformer-Fusionsmodell, das die Rechenkomplexität und die Auslastung des KV-Cache-Speichers der traditionellen Transformer-Struktur effektiv reduziert und die Trainings- und Inferenzkosten deutlich senkt. Diese hybride Architektur überwindet die Herausforderungen traditioneller großer Sprachmodelle bei hohen Kosten für das Training und die Inferenz langer Texte. Sie nutzt die Vorteile der Mamba-Architektur bei der Verarbeitung langer Sequenzen und behält gleichzeitig die Fähigkeit des Transformers bei, komplexe Kontexte zu erfassen. Dies ist der erste erfolgreiche Fall in der Industrie, in dem die Mamba-Architektur verlustfrei auf ein extrem großes MoE-Modell angewendet wird.

Als Kernkomponente der Tencent Hun Yuan-Serie wird Hun Yuan Turbo S zukünftig die Basisfunktionen für abgeleitete Modelle in den Bereichen Inferenz, lange Texte und Code bereitstellen. Basierend auf Turbo S hat Tencent auch das Inferenzmodell T1 mit tiefem Denkvermögen entwickelt. Dieses Modell wurde bereits in Tencent Yuanbao vollständig eingeführt und wird in Kürze über API-Zugriff verfügbar sein.

Entwickler und Unternehmensanwender können Hun Yuan Turbo S derzeit über die API auf der Tencent Cloud-Website aufrufen und eine einwöchige kostenlose Testversion nutzen. Die Preisgestaltung des Modells beträgt 0,8 Yuan/Million Tokens für die Eingabe und 2 Yuan/Million Tokens für die Ausgabe. Dies stellt im Vergleich zum Vorgängermodell Hun Yuan Turbo eine deutliche Preissenkung dar. Darüber hinaus wird Hun Yuan Turbo S schrittweise in Tencent Yuanbao eingeführt. Benutzer können in Yuanbao das Modell „Hun Yuan“ auswählen und die Funktion des Tiefen Denkens deaktivieren, um es zu testen.

Antrag auf kostenlose Testversion der Tencent Hun Yuan Turbo-Modell-API: https://cloud.tencent.com/apply/p/i2zophus2x8