KI-Ereignis-Zeitstrahl 2025
Eine umfassende Chronik der wichtigsten Meilensteine, technologischen Durchbrüche, Produkteinführungen und Branchenentwicklungen der Künstlichen Intelligenz in 2025
March
🔥 gpt-4o-transcribe
Ein brandneues, selbst entwickeltes Sprachmodell von OpenAI. Es kann als Upgrade des vor zwei Jahren von OpenAI veröffentlichten Open-Source-Sprachtranskriptionsmodells Whisper angesehen werden und zielt auf eine niedrigere Fehlerrate bei der Transkription und eine höhere Leistung ab. In Tests mit 33 branchenüblichen Sprachen zeigte gpt-4o-transcribe eine deutlich niedrigere Fehlerrate im Vergleich zu Whisper, insbesondere bei Englisch mit einer Fehlerrate von nur 2,46%! OpenAI bietet eine Demo-Website namens OpenAI.fm für erste Erfahrungen für Einzelnutzer an.
🔥 Step-Video-TI2V
Step-Video-TI2V ist ein fortschrittliches, von der Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd. entwickeltes Text-zu-Video-Modell. Es basiert auf dem 30B-Parameter-Step-Video-T2V-Modell und kann aus Text- und Bildeingaben Videos mit bis zu 102 Frames generieren. Die Kernvorteile des Modells liegen in der kontrollierbaren Bewegungsamplitude und der kontrollierbaren Kamerabewegung, wodurch die Dynamik und Stabilität der Videoergebnisse ausgeglichen werden. Darüber hinaus zeichnet es sich durch die hervorragende Generierung von Anime-Videos aus und eignet sich daher ideal für Anwendungen wie Animationserstellung und Kurzvideo-Produktion.
🔥 Mistral Small 3. 1
Das französische KI-Startup Mistral AI hat sein neuestes Open-Source-Modell Mistral Small 3.1 veröffentlicht. Mistral-Small-3.1-24B-Base-2503 ist ein fortschrittliches Open-Source-Modell mit 24 Milliarden Parametern, das mehrsprachig ist und die Verarbeitung langer Kontexte unterstützt. Es eignet sich für Text- und visuelle Aufgaben. Es ist das Basismodell von Mistral Small 3.1 und verfügt über starke multimodale Fähigkeiten, die für Unternehmensanforderungen geeignet sind.
🔥 文心4.5与X1
Baidu veröffentlicht Wenxin 4.5 und X1-Großmodell, Preise deutlich gesenkt
🔥 Gemma 3
Gemma 3 ist eine Reihe leichter, hochmoderner, offener Modelle, die auf der Gemini 2.0-Technologie basieren und für die Ausführung auf Geräten entwickelt wurden. Es zeichnet sich durch überragende Leistung in seiner Größenklasse aus, unterstützt über 140 Sprachen und verfügt über fortschrittliche Fähigkeiten im Text- und Bildverständnis. Gemma 3 bietet ein Kontextfenster mit 128.000 Tokens, unterstützt Funktionsaufrufe zur Bearbeitung komplexer Aufgaben und ist in quantisierten Versionen für verbesserte Leistung und geringeren Rechenaufwand verfügbar. Bei der Entwicklung wurde großer Wert auf Sicherheit gelegt, durch strenge Datenverwaltung und die Einhaltung von Sicherheitsrichtlinien wird eine verantwortungsvolle Entwicklung und Nutzung gewährleistet. Die Einführung von Gemma 3 fördert die Verbreitung und Anwendung von KI-Technologien und bietet Entwicklern leistungsstarke Tools zur Erstellung verschiedener KI-Anwendungen.
🔥 Gemini Robotics
Gemini Robotics ist ein auf Gemini 2.0 basierendes, fortschrittliches visuell-sprachlich-aktives (VLA) Modell, das speziell für die Robotik entwickelt wurde. Es bringt KI durch multimodales Schließen in die physische Welt und ermöglicht es Robotern, ein breiteres Spektrum an realen Aufgaben zu bewältigen. Das Modell ist vielseitig einsetzbar, passt sich an verschiedene Situationen an und löst diverse Aufgaben; es ist interaktiv, versteht und reagiert schnell auf alltägliche Sprachbefehle; und es ist geschickt, kann also präzise Aktionen ausführen, wie z. B. Origami falten oder Snacks verpacken.
🔥 OpenAI Agents SDK
Das OpenAI Agents SDK ist ein leichtgewichtiges, benutzerfreundliches Toolkit zum Erstellen von agentenbasierten KI-Anwendungen. Es ist eine produktionsreife Weiterentwicklung des vorherigen Swarm-Agentenexperimentierprojekts von OpenAI. Das SDK bietet eine kleine Anzahl grundlegender Komponenten, darunter Agents (LLMs, die mit Anweisungen und Tools ausgestattet sind), eine Handoff-Funktion für die Aufgabenzuweisung zwischen Agents und Sicherheitsmaßnahmen zur Validierung der Agenteneingaben. In Kombination mit Python ermöglichen diese Komponenten die Darstellung komplexer Beziehungen zwischen Tools und Agents und ermöglichen den Aufbau praktischer Anwendungen ohne steile Lernkurve. Darüber hinaus verfügt das SDK über integrierte Tracking-Funktionen, die Benutzern helfen, Agentenworkflows zu visualisieren und zu debuggen, und die es ermöglichen, Workflows zu bewerten und sogar Modelle für die Anwendung feinabzustimmen. Seine Hauptvorteile sind seine praktische Funktionalität und die geringe Anzahl an Komponenten, die ein schnelles Lernen ermöglichen; es ist sofort einsatzbereit und gleichzeitig anpassbar. Es stellt eine wichtige Entwicklung von OpenAI im Bereich der Agententechnologie dar und bietet Entwicklern ein effizientes und flexibles Werkzeug zum Erstellen agentenbasierter KI-Anwendungen.
Mistral OCR
Mistral OCR ist eine optische Zeichenerkennung (OCR)-API, die sich auf das Verständnis von Dokumenten konzentriert. Sie versteht jedes Element in Dokumenten, einschließlich Text, Bilder, Tabellen und Gleichungen, mit unvergleichlicher Genauigkeit und kognitiven Fähigkeiten. Die Technologie extrahiert aus Bildern und PDFs als Eingabe geordnete Text- und Bildinhalte, unterstützt die Verarbeitung multimodaler Dokumente und ist branchenführend im Verständnis komplexer Dokumente. Ihre Bedeutung liegt in der Möglichkeit, die kollektive Intelligenz digitaler Informationen freizuschalten und große Mengen an in Dokumenten gespeicherten Organisationsdaten in verwertbares Wissen umzuwandeln, um Innovationen voranzutreiben.
🔥 QwQ-32B
QwQ-32B ist ein Inferenzmodell mit 32 Milliarden Parametern, dessen Leistung durch massives Reinforcement Learning (RL) verbessert wurde und das zu tiefem Denken und komplexen Schlussfolgerungen fähig ist. Es integriert Agenten-bezogene Fähigkeiten, kann kritisch denken und dabei Tools verwenden und seinen Denkprozess an das Feedback der Umgebung anpassen. Das Modell zeigt hervorragende Leistungen in mathematischem Denken, Programmierfähigkeit und allgemeinen Fähigkeiten und erreicht eine vergleichbare Performance wie das DeepSeek-R1 Modell mit 671 Milliarden Parametern. Dies demonstriert das Potential von Reinforcement Learning bei der Steigerung der Intelligenz großer Sprachmodelle und bietet einen möglichen Weg zur allgemeinen künstlichen Intelligenz.
🔥 Manus
Manus ist ein universeller KI-Agent, der Denken und Handeln verbindet: Er denkt nicht nur, sondern liefert auch Ergebnisse. Manus ist hervorragend geeignet für die Bewältigung verschiedener Aufgaben im beruflichen und privaten Bereich und kann alles erledigen, während Sie sich ausruhen. Durch die Integration von Informationen und die Generierung maßgeschneiderter Lösungen bietet er Benutzern einen effizienten und komfortablen Service. Die Bedeutung von Manus liegt in seiner Fähigkeit, Benutzern durch Automatisierung und Intelligenz Zeit und Mühe zu sparen und gleichzeitig qualitativ hochwertige Analysen und Entscheidungsunterstützung zu liefern.
CogView4
CogView4 ist ein text-basiertes Bilderzeugungssystem auf der Grundlage eines Diffusionsmodells, das chinesische Eingaben und die Erzeugung von Bildern aus chinesischen Texten unterstützt. Es verwendet ein kaskadierendes Diffusionsframework und die Diffusion-Transformer-Technologie, um qualitativ hochwertige Bilder zu erzeugen. Das Modell hat in mehreren Benchmark-Tests hervorragende Leistungen gezeigt, insbesondere im Bereich der chinesischen Textgenerierung, wo es einzigartige Vorteile aufweist.
February
🔥 GPT-4.5
GPT-4.5 ist das neueste Sprachmodell von OpenAI und stellt einen bedeutenden Fortschritt im unüberwachten Lernen und in der Modellgröße dar. Durch erweiterte Berechnungen und Daten sowie Architektur- und Optimierungsinnovationen wurde das Verständnis der Welt und die Wissensbreite deutlich verbessert, Halluzinationen reduziert und die Natürlichkeit der natürlichsprachlichen Interaktion sowie das Verständnis der Benutzerabsichten gesteigert. Es zeichnet sich durch hervorragende Leistungen beim Schreiben, Programmieren und Lösen praktischer Probleme aus und verfügt gleichzeitig über eine stärkere emotionale Intelligenz (EQ) und Kreativität. Die Bedeutung von GPT-4.5 liegt in seiner Rolle als Spitzenmodell des unüberwachten Lernens, das die Grundlage für zukünftig noch leistungsfähigere Modelle bildet.
🔥 Claude 3.7 Sonnet
Claude 3.7 Sonnet ist das neueste hybride Inferenzmodell von Anthropic, das sich durch schnelles Antworten und tiefes Denken auszeichnet. Benutzer können über die API die Denkzeit des Modells fein granular steuern. Claude 3.7 Sonnet zeigt hervorragende Leistungen in der Kodierung und Frontend-Entwicklung und verbessert durch erweiterte Denkmodi die Leistung bei Aufgaben in Mathematik, Physik, Anweisungsbefolgung und Programmierung deutlich. Claude 3.7 Sonnet liefert sowohl im Standard- als auch im erweiterten Denkmodus hervorragende Ergebnisse und ermöglicht es Benutzern, die Balance zwischen Antwortgeschwindigkeit und -qualität nach Bedarf auszuwählen. Anthropic zielt darauf ab, durch ein einheitliches Inferenzmodell ein nahtloseres Benutzererlebnis zu bieten. Claude 3.7 Sonnet verkörpert dieses Konzept und optimiert die in realen Anwendungsszenarien häufig verwendeten LLM-Funktionen, anstatt sich nur auf Wettbewerbsaufgaben zu konzentrieren.
🔥 Claude Code
Claude Code ist ein in Terminals integriertes intelligentes Programmierwerkzeug, das Code-Repositories versteht und Entwicklern hilft, mithilfe von Befehlen in natürlicher Sprache schneller Code zu schreiben. Es integriert sich direkt in die Entwicklungsumgebung, ohne zusätzliche Server oder komplexe Einstellungen. Es unterstützt das Bearbeiten von Dateien, das Beheben von Fehlern im Code, das Beantworten von Fragen zur Codearchitektur und -logik, das Ausführen von Tests und die Codeüberprüfung. Die Bedeutung von Claude Code liegt in seiner Fähigkeit, die Entwicklungseffizienz deutlich zu steigern und gleichzeitig die Einstiegsschwelle in die Programmierung durch die Interaktion in natürlicher Sprache zu senken. Das Produkt basiert auf dem Anthropic Claude-3-7-sonnet-20250219 Modell und verfügt über leistungsstarke Fähigkeiten zum Verständnis und zur Generierung von Code.
🔥 QwQ-Max-Preview
QwQ-Max-Preview ist eine Vorschauversion, die auf Qwen2.5-Max basiert und zur Tongyi Qianwen-Serie gehört. Es zeichnet sich durch hervorragende Leistungen in den Bereichen tiefes Denken, Mathematik, Programmierung und agentenbezogene Aufgaben aus. Das Produkt ist geplant, in naher Zukunft unter der Apache 2.0 Lizenz als Open Source veröffentlicht zu werden, um die Entwicklung intelligenter Inferenztechnologien voranzutreiben und Community-getriebene Innovationen durch Open Source zu fördern. Zukünftig werden auch die Qwen Chat App und kleinere Inferenzmodelle (wie QwQ-32B) veröffentlicht, um den Bedürfnissen verschiedener Benutzer gerecht zu werden.
🔥 Wan AI
Wan AI ist ein fortschrittliches und leistungsstarkes visuelles Generierungsmodell, das von Alibaba Group's Tongyi Lab entwickelt wurde. Es kann Videos basierend auf Text, Bildern und anderen Steuersignalen generieren. Die Wan 2.1 Modellreihe ist jetzt vollständig Open Source. Dieses Produkt repräsentiert die Spitzentechnologie im Bereich der visuellen Inhaltsgenerierung durch künstliche Intelligenz und besitzt einen hohen Innovations- und Anwendungswert. Zu den Hauptvorteilen gehören die leistungsstarke visuelle Generierungsfähigkeit, die Unterstützung verschiedener Eingabegrößen und die Open-Source-Natur, was Entwicklern und Kreativen eine flexible Nutzung der Plattform für kreative Entwicklung und Inhaltserstellung ermöglicht.
🔥 PaliGemma 2 mix
PaliGemma 2 mix ist ein von Google entwickeltes multimodales visuell-sprachliches Modell und eine Weiterentwicklung der Gemma-Familie. Das Modell kann verschiedene visuell-sprachliche Aufgaben verarbeiten, darunter Bildsegmentierung, Videounterschriftenerzeugung, Beantwortung wissenschaftlicher Fragen und textbezogene Aufgaben. Es bietet vorab trainierte Checkpoints in verschiedenen Größen (3B, 10B und 28B Parameter) und unterstützt verschiedene Auflösungen (224px und 448px), sodass Entwickler das passende Modell nach Bedarf auswählen können. Darüber hinaus unterstützt PaliGemma 2 mix verschiedene Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp. Die Vielseitigkeit und Benutzerfreundlichkeit des Modells machen es zu einem leistungsstarken Werkzeug für visuell-sprachliche Aufgaben.
🔥 Mistral Saba
Mistral Saba ist das erste von Mistral AI entwickelte regionale Sprachmodell, das speziell auf die Sprachen des Nahen Ostens und Südasiens ausgerichtet ist. Es verfügt über 24 Milliarden Parameter und wurde auf einem sorgfältig kuratierten Datensatz aus dem Nahen Osten und Südasien trainiert. Es liefert genauere und relevantere Antworten als Modelle, die fünfmal größer sind, bei gleichzeitig höherer Geschwindigkeit und geringeren Kosten. Das Modell unterstützt Arabisch und mehrere Sprachen indischen Ursprungs, wobei es besonders gut mit südindischen Sprachen (wie Tamilisch) umgeht. Es kann nicht nur über eine API genutzt werden, sondern auch in der sicheren Umgebung des Kunden lokal bereitgestellt werden. Es eignet sich für Systeme mit einer einzelnen GPU und bietet eine Antwortgeschwindigkeit von über 150 Token pro Sekunde.
🔥 Grok 3
Grok 3 ist das neueste Flaggschiff-KI-Modell von xAI, das darauf ausgelegt ist, Bilder zu analysieren und Fragen zu beantworten und mehrere Funktionen des xAI-Sozialen Netzwerks X unterstützt. Es handelt sich um eine Modellfamilie, die Versionen wie Grok 3 mini, Grok 3 Reasoning und Grok 3 mini Reasoning umfasst. Grok 3 hat in mehreren Benchmarks hervorragende Leistungen gezeigt, beispielsweise bei AIME (Mathematikaufgaben) und GPQA (physikalische, biologische und chemische Probleme auf Doktorandenniveau), wo es GPT-4o übertraf. Sein Inferenzmodell kann, ähnlich wie OpenAIs o3-mini und DeepSeeks R1, Fakten überprüfen und gängige Fehler vermeiden. Darüber hinaus unterstützt Grok 3 die KI-gestützte Recherche über die DeepSearch-Funktion der Grok-Anwendung, die das Internet und das soziale Netzwerk X durchsucht, um Informationszusammenfassungen bereitzustellen. Für die Entwicklung von Grok 3 wurden umfangreiche Rechenressourcen eingesetzt, darunter etwa 200.000 GPUs im Rechenzentrum in Memphis, und sein Trainingsdatensatz umfasste unter anderem Gerichtsdokumente.
Goku
Goku ist ein streambasiertes, grundlegendes Modell zur Videogenerierung, das sich auf die Texterstellung von Videos konzentriert. Durch fortschrittliche Generierungstechnologien kann das Modell anhand von Textaufforderungen qualitativ hochwertige Videoinhalte erstellen und unterstützt verschiedene Szenarien und Stile der Videogenerierung. Seine Bedeutung liegt in der Fähigkeit, effiziente Lösungen zur Inhaltsgenerierung für die Videoproduktion, die Anzeigenerstellung usw. zu liefern, die Produktionskosten zu senken und die Inhaltsvielfalt zu erhöhen. Goku+ ist eine Ableitung, die speziell für Werbeanwendungen optimiert wurde und Videoinhalte erstellen kann, die besser auf die Anforderungen von Werbung abgestimmt sind.
🔥 Gemini 2.0
Gemini 2.0 ist ein wichtiger Fortschritt von Google im Bereich der generativen KI und repräsentiert den neuesten Stand der künstlichen Intelligenz. Durch seine leistungsstarken Fähigkeiten zur Sprachgenerierung bietet es Entwicklern effiziente und flexible Lösungen für diverse komplexe Szenarien.
🔥 OpenAI Deep Research
Deep Research ist eine von OpenAI entwickelte intelligente Agentenfunktion, die komplexe mehrstufige Forschungsaufgaben in kurzer Zeit erledigen kann. Es durchsucht das Internet und analysiert eine große Menge an Informationen, um dem Benutzer einen umfassenden Bericht auf dem Niveau eines professionellen Analysten zu liefern. Das Tool basiert auf dem bald erscheinenden OpenAI o3 Modell und kann Text, Bilder und PDF-Dateien verarbeiten. Es eignet sich für Benutzer, die gründliche Recherchen benötigen, wie z. B. Fachleute in den Bereichen Finanzen, Wissenschaft, Politik und Ingenieurwesen, sowie für Verbraucher, die personalisierte Empfehlungen benötigen.
January
🔥 OpenAI o3-mini
OpenAI o3-mini ist das neueste Inferenzmodell von OpenAI, das speziell für die Bereiche Wissenschaft, Technologie, Ingenieurwesen und Mathematik (STEM) optimiert wurde. Es bietet eine leistungsstarke Inferenzfähigkeit, insbesondere in Mathematik, Naturwissenschaften und Programmierung, bei gleichzeitig niedrigen Kosten und geringer Latenz. Das Modell unterstützt verschiedene Entwicklerfunktionen wie Funktionsaufrufe und strukturierte Ausgaben und ermöglicht die Auswahl unterschiedlicher Inferenzstärken je nach Bedarf.
🔥 Mistral Small 3
Mistral Small 3 ist ein quelloffenes Sprachmodell von Mistral AI mit 24 Milliarden Parametern, das unter der Apache 2.0 Lizenz steht. Das Modell wurde für niedrige Latenz und hohe Leistung entwickelt und eignet sich für generative KI-Aufgaben, die schnelle Reaktionszeiten erfordern. Es erreicht im Multitask Language Understanding (MMLU) Benchmark eine Genauigkeit von 81 % und kann Text mit einer Geschwindigkeit von 150 Token pro Sekunde generieren.
🔥 ChatGPT Gov
ChatGPT Gov ist eine speziell für US-amerikanische Regierungsbehörden zugeschnittene Version des KI-Modells von OpenAI. Sie soll Regierungsbehörden dabei unterstützen, mithilfe von KI-Technologie komplexe Probleme effizient zu lösen. Sie basiert auf der Spitzentechnologie von OpenAI und unterstützt die Regierung in Bereichen wie öffentliche Gesundheit, Infrastruktur und nationale Sicherheit, wobei gleichzeitig strenge Anforderungen an die Cybersicherheit und Compliance erfüllt werden.
🔥 Janus-Pro
Janus-Pro ist ein von DeepSeek entwickeltes, fortschrittliches multimodales Modell, das sich auf die Vereinheitlichung von multimodaler Verständnis- und Generierungsaufgaben konzentriert. Durch die Entkopplung des visuellen Kodierpfads löst es Konflikte, die bei traditionellen Modellen in Verständnis- und Generierungsaufgaben auftreten. Das Modell basiert auf der robusten Transformer-Architektur und kann komplexe multimodale Aufgaben wie visuelle Frage-Antwort-Systeme und Bilderzeugung bewältigen.
Anthropic API Citations
Die Zitierfunktion der Anthropic API ist eine leistungsstarke Technologie, die es dem Claude-Modell ermöglicht, bei der Generierung von Antworten auf genaue Sätze und Absätze in den Quelldateien zu verweisen. Diese Funktion verbessert nicht nur die Verifizierbarkeit und Glaubwürdigkeit der Antworten, sondern reduziert auch das Risiko von Halluzinationen des Modells.
FireRedASR
FireRedASR ist eine Open-Source-Familie von industriellen Mandarin-Spracherkennungsmodellen (ASR), die darauf ausgelegt ist, die vielfältigen Anforderungen an herausragende Leistung und optimale Effizienz in verschiedenen Anwendungen zu erfüllen. Es umfasst zwei Varianten: FireRedASR-LLM und FireRedASR-AED. Die Bedeutung dieser Technologie liegt in der Förderung der Entwicklung der Spracherkennungstechnologie und der Bereitstellung effizienter und genauer Lösungen für industrielle Anwendungen.
🔥 Operator
Operator ist ein intelligentes Agentenprodukt von OpenAI, das durch die Kombination der visuellen Fähigkeiten von GPT-4o mit den fortschrittlichen Schlussfolgerungsfähigkeiten des verstärkenden Lernens in der Lage ist, wie ein Mensch mit grafischen Benutzeroberflächen zu interagieren. Es kann verschiedene sich wiederholende Browseraufgaben wie das Ausfüllen von Formularen oder das Bestellen von Lebensmitteln bearbeiten und so dem Benutzer Zeit sparen.
🔥 CUA
Computer-Using Agent (CUA) ist ein von OpenAI entwickeltes, fortschrittliches KI-Modell, das die visuellen Fähigkeiten von GPT-4o mit überlegenen, durch verstärkendes Lernen erworbenen Schlussfolgerungsfähigkeiten kombiniert. Es kann wie ein Mensch mit grafischen Benutzeroberflächen (GUIs) interagieren, ohne auf APIs oder Netzwerk-Schnittstellen eines bestimmten Betriebssystems angewiesen zu sein. Die Flexibilität von CUA ermöglicht es ihm, Aufgaben in verschiedenen digitalen Umgebungen auszuführen, z. B. Formulare auszufüllen oder im Web zu surfen.
🔥 Doubao-1.5-pro
Doubao-1.5-pro ist ein von Doubao entwickeltes hochperformantes Sparse MoE (Mixture of Experts) großes Sprachmodell. Durch ein integriertes Design für Training und Inferenz wurde ein optimales Gleichgewicht zwischen Modellleistung und Inferenzleistung erreicht. Es zeigt hervorragende Ergebnisse in mehreren öffentlich verfügbaren Benchmark-Tests, insbesondere hinsichtlich Inferenzeffizienz und multimodaler Fähigkeiten. Das Modell eignet sich für Szenarien, die eine effiziente Inferenz und multimodale Interaktion erfordern, wie z. B. Verarbeitung natürlicher Sprache, Bilderkennung und Sprachinteraktion.
UI-TARS
UI-TARS ist ein neuartiges GUI-Agentenmodell, das von ByteDance entwickelt wurde und sich darauf konzentriert, durch menschenähnliche Wahrnehmungs-, Schlussfolgerungs- und Handlungsfähigkeiten nahtlos mit grafischen Benutzeroberflächen zu interagieren. Das Modell integriert wichtige Komponenten wie Wahrnehmung, Schlussfolgerung, Lokalisierung und Gedächtnis in ein einziges visuell-sprachliches Modell und ermöglicht die End-to-End-Automatisierung von Aufgaben ohne vordefinierte Arbeitsabläufe oder manuelle Regeln.
Hunyuan3D 2.0
Hunyuan3D 2.0 ist ein von Tencent entwickeltes fortschrittliches, großskaliges 3D-Synthese-System, das sich auf die Generierung von hochauflösenden, texturierten 3D-Assets konzentriert. Das System umfasst zwei grundlegende Komponenten: das großskalige Formgenerierungsmodell Hunyuan3D-DiT und das großskalige Textursynthesemodell Hunyuan3D-Paint. Durch die Entkopplung der Herausforderungen bei der Form- und Texturgenerierung bietet es Benutzern eine flexible Plattform zur Erstellung von 3D-Assets.
🔥 DeepSeek-R1
DeepSeek-R1 ist das erste Inferenzmodell des DeepSeek-Teams. Es wurde durch groß angelegtes Reinforcement Learning trainiert und zeigt ohne überwachte Feinabstimmung hervorragende Inferenzfähigkeiten. Das Modell liefert ausgezeichnete Ergebnisse bei mathematischen, Code- und Inferenzaufgaben und ist mit dem OpenAI-o1-Modell vergleichbar. DeepSeek-R1 bietet außerdem verschiedene destillierte Modelle für Szenarien mit unterschiedlichen Größen- und Leistungsanforderungen.
🔥 Kimi k1.5
Kimi k1.5 ist ein von MoonshotAI entwickeltes multimodales Sprachmodell, das durch Reinforcement Learning und die Erweiterung langer Kontexte die Leistung des Modells bei komplexen Inferenzaufgaben deutlich verbessert. Das Modell erreichte in mehreren Benchmark-Tests branchenführende Ergebnisse, beispielsweise übertraf es GPT-4o und Claude Sonnet 3.5 in mathematischen Inferenzaufgaben wie AIME und MATH-500.
🔥 Trae
Trae ist eine KI-gestützte integrierte Entwicklungsumgebung (IDE) für Entwickler. Sie unterstützt Entwickler durch intelligente Code-Vervollständigung, multimodale Interaktion und Kontextanalyse des gesamten Code-Repositorys bei der effizienteren Code-Erstellung.
🔥 Ray2
Luma AI hat das Ray2-Videogenerierungsmodell vorgestellt, das schnellere und natürlichere Bewegungseffekte erzielt. Es unterstützt hauptsächlich die Funktion zur Text-zu-Video-Generierung. Benutzer können eine Beschreibung eingeben und ein 5 bis 10 Sekunden langes Kurzvideo generieren.
FLUX Pro Finetuning API
Die FLUX Pro Finetuning API ist ein von Black Forest Labs entwickeltes Werkzeug zur individuellen Anpassung von generativen Text-zu-Bild-Modellen. Sie ermöglicht es Nutzern, das FLUX Pro Modell anhand weniger Beispielbilder (1-5 Bilder) zu feinabstimmen, um qualitativ hochwertige Bildinhalte zu generieren, die spezifischen Marken-, Stil- oder visuellen Anforderungen entsprechen.
🔥 moonshot-v1-vision-preview
Das Kimi-Sehmodell ist eine fortschrittliche Technologie zum Bildverständnis, die über die Moonshot AI-Open-Source-Plattform bereitgestellt wird. Es kann Text, Farben und Objektformen in Bildern präzise erkennen und verstehen und bietet Benutzern leistungsstarke Funktionen zur visuellen Analyse.
🔥 MiniMax-01 series
Die MiniMax-01-Serie ist ein von MiniMax veröffentlichtes Open-Source-Modell, das MiniMax-Text-01 und MiniMax-VL-01 umfasst. Diese Serie implementiert erstmals im großen Maßstab den innovativen Blitz-Aufmerksamkeitsmechanismus und bietet eine mit den weltweit führenden Modellen vergleichbare Leistung. Sie kann effizient extrem lange Kontexte mit bis zu 4 Millionen Token verarbeiten und ist ein Vorreiter im Zeitalter der KI-Agenten.
ReaderLM v2
ReaderLM v2 ist ein von Jina AI entwickeltes kleines Sprachmodell mit 1,5 Milliarden Parametern, das speziell für die Konvertierung von HTML in Markdown und die Extraktion von HTML in JSON entwickelt wurde und sich durch herausragende Genauigkeit auszeichnet. Das Modell unterstützt 29 Sprachen und kann Eingaben und Ausgaben mit einer kombinierten Länge von bis zu 512.000 Tokens verarbeiten.
🔥 Codestral 25.01
Codestral 25.01 ist ein von Mistral AI entwickeltes, fortschrittliches Modell zur Programmierunterstützung, das die Spitze der aktuellen Technologie im Bereich der Programmiermodelle darstellt. Das Modell zeichnet sich durch seine Leichtigkeit, Schnelligkeit und die Beherrschung von über 80 Programmiersprachen aus. Es wurde für den Einsatz in Szenarien mit geringer Latenz und hoher Frequenz optimiert und unterstützt Aufgaben wie Code Completion (FIM), Codekorrektur und Testgenerierung.
🔥 万相营造
Wanxiang Yingzao ist ein von Alibaba Mama entwickeltes KI-Tool für die Kreativgestaltung, das Händlern helfen soll, schnell hochwertige Werbematerialien zu erstellen und die Marketingwirkung zu verbessern. Es nutzt fortschrittliche KI-Technologie, um Funktionen wie die Umwandlung von Bildern in Videos, intelligentes Anprobieren und die Generierung von Texten zu ermöglichen und so die Anforderungen von E-Commerce-Händlern in verschiedenen Marketing-Szenarien zu erfüllen.
🔥 DeepSeek APP
Die DeepSeek App ist jetzt offiziell verfügbar, sowohl für iOS als auch für Android.
🔥 日日新融合大模型
SenseTime präsentiert das neue große, fusionierte Modell "Rixin" mit deutlich verbesserten Fähigkeiten in Deep Reasoning und multimodaler Verarbeitung.
🔥 通义万相2.1模型
Die neue Version 2.1 des Tongyi Wanxiang Videogenerierungsmodells von Alibaba wurde veröffentlicht.
🔥 Moondream2
Moondream ist ein kleines visuelles Sprachmodell, das für einen effizienten Betrieb auf Edge-Geräten entwickelt wurde.
🔥 OpenBMB PRIME
Eurus-2-7B-PRIME ähnelt o1 und wurde mit der PRIME-Methode (Process Reward with Implicit Reward Enhancement) trainiert, einer Open-Source-Lösung für Online-Verstärkungslernen (RL) mit Prozessbelohnungen, um die Inferenzfähigkeit oder Destillation von Sprachmodellen über die bloße Imitation hinaus zu verbessern. Es basiert auf Eurus-2-7B-SFT und wurde auf Eurus-2-RL-Data trainiert.
🔥 Nvidia Cosmos
NVIDIA Cosmos™ ist eine Plattform, die aus hochmodernen Generative-World-Foundation-Modellen (WFM), fortschrittlichen Tokenizern, Sicherheitsvorkehrungen und beschleunigten Datenverarbeitungs- und -verwaltungs-Pipelines besteht und darauf ausgelegt ist, die Entwicklung physikalischer KI-Systeme wie autonomer Fahrzeuge (AV) und Roboter zu beschleunigen.
🔥 J1 Assistant
Das von Luo Yonghao gegründete KI-Startup Jarvis hat heimlich eine AI-Assistenzsoftware namens „J1Assistant“ veröffentlicht. Derzeit ist die Software nur im Ausland als Android-Version verfügbar.