Die Tencent Cloud TI-Plattform hat kürzlich die vielbeachtete DeepSeek-Modellreihe offiziell eingeführt. Diese umfasst das „Full-Fat“-V3- und das originale R1-Modell mit 671 Milliarden Parametern sowie eine Reihe von auf DeepSeek-R1 basierenden, destillierten Modellen mit Parametern von 70 Milliarden bis 1,5 Milliarden. Dies bietet Entwicklern leistungsstarke KI-Tools und fördert die Verbreitung und Anwendung von großen Sprachmodellen.
Die DeepSeek-Modellreihe hat durch ihre herausragende Leistung weltweit große Aufmerksamkeit erlangt. DeepSeek-R1 wurde bereits bei seiner Veröffentlichung Open Source bereitgestellt und im Nachtraining umfassend mit Reinforcement Learning-Techniken verbessert. Selbst mit minimalen annotierten Daten kann die Inferenzleistung des Modells deutlich gesteigert werden. In Aufgaben wie Mathematik, Code und natürlicher Sprachverarbeitung erreicht DeepSeek-R1 eine Leistung, die der des offiziellen GPT-4 von OpenAI ebenbürtig ist. Darüber hinaus unterliegt DeepSeek-R1 der MIT-Lizenz, die es Nutzern erlaubt, durch Destillation weitere Modelle zu trainieren. Das destillierte Modell DeepSeek-R1-Distill zeigt auch bei kleinerer Parameteranzahl und geringeren Inferenzkosten in Benchmarks eine hervorragende Leistung.
Die Tencent Cloud TI-Plattform unterstützt nicht nur die einfache Bereitstellung der DeepSeek-Modellreihe umfassend, sondern bietet auch eine zeitlich begrenzte kostenlose Online-Testversion des R1-Modells an, um Entwicklern einen unkomplizierten Einstieg zu ermöglichen. Unter „TI-Plattform – Großmodell-Marktplatz“ können Nutzer die DeepSeek-Modellkarten anklicken, um Informationen zu den Modellen abzurufen und Online-Tests sowie die einfache Bereitstellung durchzuführen. Zusätzlich bietet die TI-Plattform unternehmensweite Funktionen wie Modellverwaltung, Überwachung, Betrieb und Skalierung der Ressourcen, um Unternehmen und Entwicklern zu helfen, DeepSeek-Modelle effizient und stabil in reale Anwendungen zu integrieren.
Um den unterschiedlichen Anforderungen der Nutzer gerecht zu werden, bietet die TI-Plattform verschiedene Abrechnungsmodelle an, darunter nutzungsbasierte Abrechnung und Jahres-/Monatsabonnements. Nutzer, die das Modell kurzzeitig testen möchten, können direkt über die TI-Plattform Rechenleistung erwerben und die nutzungsbasierte Abrechnung wählen. Nutzer mit bereits erworbenen CVM-Maschinen oder langfristigem Bedarf sollten ihre eigenen CVM-Maschinen als Inferenzrechenleistung verwenden. Für die Bereitstellung des „Full-Fat“-DeepSeek-R1-Modells werden zwei 8-Karten-HCCPNV6-Maschinen von Tencent Cloud empfohlen, um einen stabilen Betrieb zu gewährleisten. Das destillierte DeepSeek-R1-Distill-Qwen-1.5B-Modell kann hingegen auf einer einzelnen mittelklassigen GPU-Karte bereitgestellt werden. Entwickler können je nach Komplexität ihrer Anwendung das passende Modell auswählen, testen und über eine API in KI-Anwendungen integrieren.
Diese neue Initiative der Tencent Cloud TI-Plattform bietet Entwicklern nicht nur leistungsstarke KI-Tools, sondern fördert auch die Verbreitung und Anwendung von großen Sprachmodellen. Durch die kostenlose Testversion und die einfache Bereitstellung senkt die TI-Plattform die Einstiegshürde für die Nutzung von großen Sprachmodellen und ermöglicht es Entwicklern, KI-Technologien schneller in reale Anwendungen zu integrieren. Dies steigert die Praktikabilität und Zugänglichkeit von KI-Technologien.