One-Stop-KI-Produktnavigation, um Ihnen die Tür zu AIGC zu öffnen~

KI-Ereignis-Zeitstrahl 2025

Eine umfassende Chronik der wichtigsten Meilensteine, technologischen Durchbrüche, Produkteinführungen und Branchenentwicklungen der Künstlichen Intelligenz in 2025

March

Alle (11)
​OpenAI (1)
阶跃星辰 (1)
​Mistral AI (1)
百度 (1)
Google (1)
Google DeepMind (1)
OpenAI (1)
Mistral AI (1)
Alibaba (1)
Manus (1)
THUDM (1)

🔥 gpt-4o-transcribe

gpt-4o-transcribe​OpenAI

Ein brandneues, selbst entwickeltes Sprachmodell von OpenAI. Es kann als Upgrade des vor zwei Jahren von OpenAI veröffentlichten Open-Source-Sprachtranskriptionsmodells Whisper angesehen werden und zielt auf eine niedrigere Fehlerrate bei der Transkription und eine höhere Leistung ab. In Tests mit 33 branchenüblichen Sprachen zeigte gpt-4o-transcribe eine deutlich niedrigere Fehlerrate im Vergleich zu Whisper, insbesondere bei Englisch mit einer Fehlerrate von nur 2,46%! OpenAI bietet eine Demo-Website namens OpenAI.fm für erste Erfahrungen für Einzelnutzer an.

Audio
Mar 21

🔥 Step-Video-TI2V

Step-Video-TI2V阶跃星辰

Step-Video-TI2V ist ein fortschrittliches, von der Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd. entwickeltes Text-zu-Video-Modell. Es basiert auf dem 30B-Parameter-Step-Video-T2V-Modell und kann aus Text- und Bildeingaben Videos mit bis zu 102 Frames generieren. Die Kernvorteile des Modells liegen in der kontrollierbaren Bewegungsamplitude und der kontrollierbaren Kamerabewegung, wodurch die Dynamik und Stabilität der Videoergebnisse ausgeglichen werden. Darüber hinaus zeichnet es sich durch die hervorragende Generierung von Anime-Videos aus und eignet sich daher ideal für Anwendungen wie Animationserstellung und Kurzvideo-Produktion.

Sprache
Mar 20

🔥 Mistral Small 3. 1

Mistral Small 3. 1​Mistral AI

Das französische KI-Startup Mistral AI hat sein neuestes Open-Source-Modell Mistral Small 3.1 veröffentlicht. Mistral-Small-3.1-24B-Base-2503 ist ein fortschrittliches Open-Source-Modell mit 24 Milliarden Parametern, das mehrsprachig ist und die Verarbeitung langer Kontexte unterstützt. Es eignet sich für Text- und visuelle Aufgaben. Es ist das Basismodell von Mistral Small 3.1 und verfügt über starke multimodale Fähigkeiten, die für Unternehmensanforderungen geeignet sind.

Multimodal
Mar 18

🔥 文心4.5与X1

文心4.5与X1百度

Baidu veröffentlicht Wenxin 4.5 und X1-Großmodell, Preise deutlich gesenkt

Sprache
Mar 16

🔥 Gemma 3

Gemma 3Google

Gemma 3 ist eine Reihe leichter, hochmoderner, offener Modelle, die auf der Gemini 2.0-Technologie basieren und für die Ausführung auf Geräten entwickelt wurden. Es zeichnet sich durch überragende Leistung in seiner Größenklasse aus, unterstützt über 140 Sprachen und verfügt über fortschrittliche Fähigkeiten im Text- und Bildverständnis. Gemma 3 bietet ein Kontextfenster mit 128.000 Tokens, unterstützt Funktionsaufrufe zur Bearbeitung komplexer Aufgaben und ist in quantisierten Versionen für verbesserte Leistung und geringeren Rechenaufwand verfügbar. Bei der Entwicklung wurde großer Wert auf Sicherheit gelegt, durch strenge Datenverwaltung und die Einhaltung von Sicherheitsrichtlinien wird eine verantwortungsvolle Entwicklung und Nutzung gewährleistet. Die Einführung von Gemma 3 fördert die Verbreitung und Anwendung von KI-Technologien und bietet Entwicklern leistungsstarke Tools zur Erstellung verschiedener KI-Anwendungen.

Multimodal
Mar 12

🔥 Gemini Robotics

Gemini RoboticsGoogle DeepMind

Gemini Robotics ist ein auf Gemini 2.0 basierendes, fortschrittliches visuell-sprachlich-aktives (VLA) Modell, das speziell für die Robotik entwickelt wurde. Es bringt KI durch multimodales Schließen in die physische Welt und ermöglicht es Robotern, ein breiteres Spektrum an realen Aufgaben zu bewältigen. Das Modell ist vielseitig einsetzbar, passt sich an verschiedene Situationen an und löst diverse Aufgaben; es ist interaktiv, versteht und reagiert schnell auf alltägliche Sprachbefehle; und es ist geschickt, kann also präzise Aktionen ausführen, wie z. B. Origami falten oder Snacks verpacken.

Multimodal
Mar 12

🔥 OpenAI Agents SDK

OpenAI Agents SDKOpenAI

Das OpenAI Agents SDK ist ein leichtgewichtiges, benutzerfreundliches Toolkit zum Erstellen von agentenbasierten KI-Anwendungen. Es ist eine produktionsreife Weiterentwicklung des vorherigen Swarm-Agentenexperimentierprojekts von OpenAI. Das SDK bietet eine kleine Anzahl grundlegender Komponenten, darunter Agents (LLMs, die mit Anweisungen und Tools ausgestattet sind), eine Handoff-Funktion für die Aufgabenzuweisung zwischen Agents und Sicherheitsmaßnahmen zur Validierung der Agenteneingaben. In Kombination mit Python ermöglichen diese Komponenten die Darstellung komplexer Beziehungen zwischen Tools und Agents und ermöglichen den Aufbau praktischer Anwendungen ohne steile Lernkurve. Darüber hinaus verfügt das SDK über integrierte Tracking-Funktionen, die Benutzern helfen, Agentenworkflows zu visualisieren und zu debuggen, und die es ermöglichen, Workflows zu bewerten und sogar Modelle für die Anwendung feinabzustimmen. Seine Hauptvorteile sind seine praktische Funktionalität und die geringe Anzahl an Komponenten, die ein schnelles Lernen ermöglichen; es ist sofort einsatzbereit und gleichzeitig anpassbar. Es stellt eine wichtige Entwicklung von OpenAI im Bereich der Agententechnologie dar und bietet Entwicklern ein effizientes und flexibles Werkzeug zum Erstellen agentenbasierter KI-Anwendungen.

Sprache
Mar 11

Mistral OCR

Mistral OCRMistral AI

Mistral OCR ist eine optische Zeichenerkennung (OCR)-API, die sich auf das Verständnis von Dokumenten konzentriert. Sie versteht jedes Element in Dokumenten, einschließlich Text, Bilder, Tabellen und Gleichungen, mit unvergleichlicher Genauigkeit und kognitiven Fähigkeiten. Die Technologie extrahiert aus Bildern und PDFs als Eingabe geordnete Text- und Bildinhalte, unterstützt die Verarbeitung multimodaler Dokumente und ist branchenführend im Verständnis komplexer Dokumente. Ihre Bedeutung liegt in der Möglichkeit, die kollektive Intelligenz digitaler Informationen freizuschalten und große Mengen an in Dokumenten gespeicherten Organisationsdaten in verwertbares Wissen umzuwandeln, um Innovationen voranzutreiben.

Multimodal
Mar 6

🔥 QwQ-32B

QwQ-32BAlibaba

QwQ-32B ist ein Inferenzmodell mit 32 Milliarden Parametern, dessen Leistung durch massives Reinforcement Learning (RL) verbessert wurde und das zu tiefem Denken und komplexen Schlussfolgerungen fähig ist. Es integriert Agenten-bezogene Fähigkeiten, kann kritisch denken und dabei Tools verwenden und seinen Denkprozess an das Feedback der Umgebung anpassen. Das Modell zeigt hervorragende Leistungen in mathematischem Denken, Programmierfähigkeit und allgemeinen Fähigkeiten und erreicht eine vergleichbare Performance wie das DeepSeek-R1 Modell mit 671 Milliarden Parametern. Dies demonstriert das Potential von Reinforcement Learning bei der Steigerung der Intelligenz großer Sprachmodelle und bietet einen möglichen Weg zur allgemeinen künstlichen Intelligenz.

Sprache
Mar 6

🔥 Manus

ManusManus

Manus ist ein universeller KI-Agent, der Denken und Handeln verbindet: Er denkt nicht nur, sondern liefert auch Ergebnisse. Manus ist hervorragend geeignet für die Bewältigung verschiedener Aufgaben im beruflichen und privaten Bereich und kann alles erledigen, während Sie sich ausruhen. Durch die Integration von Informationen und die Generierung maßgeschneiderter Lösungen bietet er Benutzern einen effizienten und komfortablen Service. Die Bedeutung von Manus liegt in seiner Fähigkeit, Benutzern durch Automatisierung und Intelligenz Zeit und Mühe zu sparen und gleichzeitig qualitativ hochwertige Analysen und Entscheidungsunterstützung zu liefern.

Multimodal
Mar 5

CogView4

CogView4THUDM

CogView4 ist ein text-basiertes Bilderzeugungssystem auf der Grundlage eines Diffusionsmodells, das chinesische Eingaben und die Erzeugung von Bildern aus chinesischen Texten unterstützt. Es verwendet ein kaskadierendes Diffusionsframework und die Diffusion-Transformer-Technologie, um qualitativ hochwertige Bilder zu erzeugen. Das Modell hat in mehreren Benchmark-Tests hervorragende Leistungen gezeigt, insbesondere im Bereich der chinesischen Textgenerierung, wo es einzigartige Vorteile aufweist.

Bild
Mar 4

February

Alle (11)
OpenAI (2)
Anthropic (2)
Alibaba (2)
Google (2)
Mistral AI (1)
xAI (1)
ByteDance (1)

🔥 GPT-4.5

GPT-4.5OpenAI

GPT-4.5 ist das neueste Sprachmodell von OpenAI und stellt einen bedeutenden Fortschritt im unüberwachten Lernen und in der Modellgröße dar. Durch erweiterte Berechnungen und Daten sowie Architektur- und Optimierungsinnovationen wurde das Verständnis der Welt und die Wissensbreite deutlich verbessert, Halluzinationen reduziert und die Natürlichkeit der natürlichsprachlichen Interaktion sowie das Verständnis der Benutzerabsichten gesteigert. Es zeichnet sich durch hervorragende Leistungen beim Schreiben, Programmieren und Lösen praktischer Probleme aus und verfügt gleichzeitig über eine stärkere emotionale Intelligenz (EQ) und Kreativität. Die Bedeutung von GPT-4.5 liegt in seiner Rolle als Spitzenmodell des unüberwachten Lernens, das die Grundlage für zukünftig noch leistungsfähigere Modelle bildet.

Sprache
Feb 27

🔥 Claude 3.7 Sonnet

Claude 3.7 SonnetAnthropic

Claude 3.7 Sonnet ist das neueste hybride Inferenzmodell von Anthropic, das sich durch schnelles Antworten und tiefes Denken auszeichnet. Benutzer können über die API die Denkzeit des Modells fein granular steuern. Claude 3.7 Sonnet zeigt hervorragende Leistungen in der Kodierung und Frontend-Entwicklung und verbessert durch erweiterte Denkmodi die Leistung bei Aufgaben in Mathematik, Physik, Anweisungsbefolgung und Programmierung deutlich. Claude 3.7 Sonnet liefert sowohl im Standard- als auch im erweiterten Denkmodus hervorragende Ergebnisse und ermöglicht es Benutzern, die Balance zwischen Antwortgeschwindigkeit und -qualität nach Bedarf auszuwählen. Anthropic zielt darauf ab, durch ein einheitliches Inferenzmodell ein nahtloseres Benutzererlebnis zu bieten. Claude 3.7 Sonnet verkörpert dieses Konzept und optimiert die in realen Anwendungsszenarien häufig verwendeten LLM-Funktionen, anstatt sich nur auf Wettbewerbsaufgaben zu konzentrieren.

Multimodal
Feb 25

🔥 Claude Code

Claude CodeAnthropic

Claude Code ist ein in Terminals integriertes intelligentes Programmierwerkzeug, das Code-Repositories versteht und Entwicklern hilft, mithilfe von Befehlen in natürlicher Sprache schneller Code zu schreiben. Es integriert sich direkt in die Entwicklungsumgebung, ohne zusätzliche Server oder komplexe Einstellungen. Es unterstützt das Bearbeiten von Dateien, das Beheben von Fehlern im Code, das Beantworten von Fragen zur Codearchitektur und -logik, das Ausführen von Tests und die Codeüberprüfung. Die Bedeutung von Claude Code liegt in seiner Fähigkeit, die Entwicklungseffizienz deutlich zu steigern und gleichzeitig die Einstiegsschwelle in die Programmierung durch die Interaktion in natürlicher Sprache zu senken. Das Produkt basiert auf dem Anthropic Claude-3-7-sonnet-20250219 Modell und verfügt über leistungsstarke Fähigkeiten zum Verständnis und zur Generierung von Code.

Sprache
Feb 25

🔥 QwQ-Max-Preview

QwQ-Max-PreviewAlibaba

QwQ-Max-Preview ist eine Vorschauversion, die auf Qwen2.5-Max basiert und zur Tongyi Qianwen-Serie gehört. Es zeichnet sich durch hervorragende Leistungen in den Bereichen tiefes Denken, Mathematik, Programmierung und agentenbezogene Aufgaben aus. Das Produkt ist geplant, in naher Zukunft unter der Apache 2.0 Lizenz als Open Source veröffentlicht zu werden, um die Entwicklung intelligenter Inferenztechnologien voranzutreiben und Community-getriebene Innovationen durch Open Source zu fördern. Zukünftig werden auch die Qwen Chat App und kleinere Inferenzmodelle (wie QwQ-32B) veröffentlicht, um den Bedürfnissen verschiedener Benutzer gerecht zu werden.

Sprache
Feb 25

🔥 Wan AI

Wan AIAlibaba

Wan AI ist ein fortschrittliches und leistungsstarkes visuelles Generierungsmodell, das von Alibaba Group's Tongyi Lab entwickelt wurde. Es kann Videos basierend auf Text, Bildern und anderen Steuersignalen generieren. Die Wan 2.1 Modellreihe ist jetzt vollständig Open Source. Dieses Produkt repräsentiert die Spitzentechnologie im Bereich der visuellen Inhaltsgenerierung durch künstliche Intelligenz und besitzt einen hohen Innovations- und Anwendungswert. Zu den Hauptvorteilen gehören die leistungsstarke visuelle Generierungsfähigkeit, die Unterstützung verschiedener Eingabegrößen und die Open-Source-Natur, was Entwicklern und Kreativen eine flexible Nutzung der Plattform für kreative Entwicklung und Inhaltserstellung ermöglicht.

Video
Feb 25

🔥 PaliGemma 2 mix

PaliGemma 2 mixGoogle

PaliGemma 2 mix ist ein von Google entwickeltes multimodales visuell-sprachliches Modell und eine Weiterentwicklung der Gemma-Familie. Das Modell kann verschiedene visuell-sprachliche Aufgaben verarbeiten, darunter Bildsegmentierung, Videounterschriftenerzeugung, Beantwortung wissenschaftlicher Fragen und textbezogene Aufgaben. Es bietet vorab trainierte Checkpoints in verschiedenen Größen (3B, 10B und 28B Parameter) und unterstützt verschiedene Auflösungen (224px und 448px), sodass Entwickler das passende Modell nach Bedarf auswählen können. Darüber hinaus unterstützt PaliGemma 2 mix verschiedene Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp. Die Vielseitigkeit und Benutzerfreundlichkeit des Modells machen es zu einem leistungsstarken Werkzeug für visuell-sprachliche Aufgaben.

Multimodal
Feb 19

🔥 Mistral Saba

Mistral SabaMistral AI

Mistral Saba ist das erste von Mistral AI entwickelte regionale Sprachmodell, das speziell auf die Sprachen des Nahen Ostens und Südasiens ausgerichtet ist. Es verfügt über 24 Milliarden Parameter und wurde auf einem sorgfältig kuratierten Datensatz aus dem Nahen Osten und Südasien trainiert. Es liefert genauere und relevantere Antworten als Modelle, die fünfmal größer sind, bei gleichzeitig höherer Geschwindigkeit und geringeren Kosten. Das Modell unterstützt Arabisch und mehrere Sprachen indischen Ursprungs, wobei es besonders gut mit südindischen Sprachen (wie Tamilisch) umgeht. Es kann nicht nur über eine API genutzt werden, sondern auch in der sicheren Umgebung des Kunden lokal bereitgestellt werden. Es eignet sich für Systeme mit einer einzelnen GPU und bietet eine Antwortgeschwindigkeit von über 150 Token pro Sekunde.

Sprache
Feb 17

🔥 Grok 3

Grok 3xAI

Grok 3 ist das neueste Flaggschiff-KI-Modell von xAI, das darauf ausgelegt ist, Bilder zu analysieren und Fragen zu beantworten und mehrere Funktionen des xAI-Sozialen Netzwerks X unterstützt. Es handelt sich um eine Modellfamilie, die Versionen wie Grok 3 mini, Grok 3 Reasoning und Grok 3 mini Reasoning umfasst. Grok 3 hat in mehreren Benchmarks hervorragende Leistungen gezeigt, beispielsweise bei AIME (Mathematikaufgaben) und GPQA (physikalische, biologische und chemische Probleme auf Doktorandenniveau), wo es GPT-4o übertraf. Sein Inferenzmodell kann, ähnlich wie OpenAIs o3-mini und DeepSeeks R1, Fakten überprüfen und gängige Fehler vermeiden. Darüber hinaus unterstützt Grok 3 die KI-gestützte Recherche über die DeepSearch-Funktion der Grok-Anwendung, die das Internet und das soziale Netzwerk X durchsucht, um Informationszusammenfassungen bereitzustellen. Für die Entwicklung von Grok 3 wurden umfangreiche Rechenressourcen eingesetzt, darunter etwa 200.000 GPUs im Rechenzentrum in Memphis, und sein Trainingsdatensatz umfasste unter anderem Gerichtsdokumente.

Multimodal
Feb 17

Goku

GokuByteDance

Goku ist ein streambasiertes, grundlegendes Modell zur Videogenerierung, das sich auf die Texterstellung von Videos konzentriert. Durch fortschrittliche Generierungstechnologien kann das Modell anhand von Textaufforderungen qualitativ hochwertige Videoinhalte erstellen und unterstützt verschiedene Szenarien und Stile der Videogenerierung. Seine Bedeutung liegt in der Fähigkeit, effiziente Lösungen zur Inhaltsgenerierung für die Videoproduktion, die Anzeigenerstellung usw. zu liefern, die Produktionskosten zu senken und die Inhaltsvielfalt zu erhöhen. Goku+ ist eine Ableitung, die speziell für Werbeanwendungen optimiert wurde und Videoinhalte erstellen kann, die besser auf die Anforderungen von Werbung abgestimmt sind.

Video
Feb 10

🔥 Gemini 2.0

Gemini 2.0Google

Gemini 2.0 ist ein wichtiger Fortschritt von Google im Bereich der generativen KI und repräsentiert den neuesten Stand der künstlichen Intelligenz. Durch seine leistungsstarken Fähigkeiten zur Sprachgenerierung bietet es Entwicklern effiziente und flexible Lösungen für diverse komplexe Szenarien.

Multimodal
Feb 5

🔥 OpenAI Deep Research

OpenAI Deep ResearchOpenAI

Deep Research ist eine von OpenAI entwickelte intelligente Agentenfunktion, die komplexe mehrstufige Forschungsaufgaben in kurzer Zeit erledigen kann. Es durchsucht das Internet und analysiert eine große Menge an Informationen, um dem Benutzer einen umfassenden Bericht auf dem Niveau eines professionellen Analysten zu liefern. Das Tool basiert auf dem bald erscheinenden OpenAI o3 Modell und kann Text, Bilder und PDF-Dateien verarbeiten. Es eignet sich für Benutzer, die gründliche Recherchen benötigen, wie z. B. Fachleute in den Bereichen Finanzen, Wissenschaft, Politik und Ingenieurwesen, sowie für Verbraucher, die personalisierte Empfehlungen benötigen.

Multimodal
Feb 2

January

Alle (28)
OpenAI (4)
Mistral AI (2)
DeepSeek (3)
Anthropic (1)
小红书 (1)
ByteDance (3)
腾讯 (1)
MoonshotAI (1)
​Luma AI (1)
Black Forest Labs (1)
Moonshot AI (1)
MiniMax (1)
Jina AI (1)
阿里妈妈 (1)
商汤科技 (1)
阿里巴巴 (1)
Moondream (1)
OpenBMB (1)
Nvidia (1)
Jarvis (1)

🔥 OpenAI o3-mini

OpenAI o3-miniOpenAI

OpenAI o3-mini ist das neueste Inferenzmodell von OpenAI, das speziell für die Bereiche Wissenschaft, Technologie, Ingenieurwesen und Mathematik (STEM) optimiert wurde. Es bietet eine leistungsstarke Inferenzfähigkeit, insbesondere in Mathematik, Naturwissenschaften und Programmierung, bei gleichzeitig niedrigen Kosten und geringer Latenz. Das Modell unterstützt verschiedene Entwicklerfunktionen wie Funktionsaufrufe und strukturierte Ausgaben und ermöglicht die Auswahl unterschiedlicher Inferenzstärken je nach Bedarf.

Multimodal
Jan 31

🔥 Mistral Small 3

Mistral Small 3Mistral AI

Mistral Small 3 ist ein quelloffenes Sprachmodell von Mistral AI mit 24 Milliarden Parametern, das unter der Apache 2.0 Lizenz steht. Das Modell wurde für niedrige Latenz und hohe Leistung entwickelt und eignet sich für generative KI-Aufgaben, die schnelle Reaktionszeiten erfordern. Es erreicht im Multitask Language Understanding (MMLU) Benchmark eine Genauigkeit von 81 % und kann Text mit einer Geschwindigkeit von 150 Token pro Sekunde generieren.

Sprache
Jan 30

🔥 ChatGPT Gov

ChatGPT GovOpenAI

ChatGPT Gov ist eine speziell für US-amerikanische Regierungsbehörden zugeschnittene Version des KI-Modells von OpenAI. Sie soll Regierungsbehörden dabei unterstützen, mithilfe von KI-Technologie komplexe Probleme effizient zu lösen. Sie basiert auf der Spitzentechnologie von OpenAI und unterstützt die Regierung in Bereichen wie öffentliche Gesundheit, Infrastruktur und nationale Sicherheit, wobei gleichzeitig strenge Anforderungen an die Cybersicherheit und Compliance erfüllt werden.

Multimodal
Jan 28

🔥 Janus-Pro

Janus-ProDeepSeek

Janus-Pro ist ein von DeepSeek entwickeltes, fortschrittliches multimodales Modell, das sich auf die Vereinheitlichung von multimodaler Verständnis- und Generierungsaufgaben konzentriert. Durch die Entkopplung des visuellen Kodierpfads löst es Konflikte, die bei traditionellen Modellen in Verständnis- und Generierungsaufgaben auftreten. Das Modell basiert auf der robusten Transformer-Architektur und kann komplexe multimodale Aufgaben wie visuelle Frage-Antwort-Systeme und Bilderzeugung bewältigen.

Multimodal
Jan 27

Anthropic API Citations

Anthropic API CitationsAnthropic

Die Zitierfunktion der Anthropic API ist eine leistungsstarke Technologie, die es dem Claude-Modell ermöglicht, bei der Generierung von Antworten auf genaue Sätze und Absätze in den Quelldateien zu verweisen. Diese Funktion verbessert nicht nur die Verifizierbarkeit und Glaubwürdigkeit der Antworten, sondern reduziert auch das Risiko von Halluzinationen des Modells.

Sprache
Jan 24

FireRedASR

FireRedASR小红书

FireRedASR ist eine Open-Source-Familie von industriellen Mandarin-Spracherkennungsmodellen (ASR), die darauf ausgelegt ist, die vielfältigen Anforderungen an herausragende Leistung und optimale Effizienz in verschiedenen Anwendungen zu erfüllen. Es umfasst zwei Varianten: FireRedASR-LLM und FireRedASR-AED. Die Bedeutung dieser Technologie liegt in der Förderung der Entwicklung der Spracherkennungstechnologie und der Bereitstellung effizienter und genauer Lösungen für industrielle Anwendungen.

Audio
Jan 24

🔥 Operator

OperatorOpenAI

Operator ist ein intelligentes Agentenprodukt von OpenAI, das durch die Kombination der visuellen Fähigkeiten von GPT-4o mit den fortschrittlichen Schlussfolgerungsfähigkeiten des verstärkenden Lernens in der Lage ist, wie ein Mensch mit grafischen Benutzeroberflächen zu interagieren. Es kann verschiedene sich wiederholende Browseraufgaben wie das Ausfüllen von Formularen oder das Bestellen von Lebensmitteln bearbeiten und so dem Benutzer Zeit sparen.

Multimodal
Jan 23

🔥 CUA

CUAOpenAI

Computer-Using Agent (CUA) ist ein von OpenAI entwickeltes, fortschrittliches KI-Modell, das die visuellen Fähigkeiten von GPT-4o mit überlegenen, durch verstärkendes Lernen erworbenen Schlussfolgerungsfähigkeiten kombiniert. Es kann wie ein Mensch mit grafischen Benutzeroberflächen (GUIs) interagieren, ohne auf APIs oder Netzwerk-Schnittstellen eines bestimmten Betriebssystems angewiesen zu sein. Die Flexibilität von CUA ermöglicht es ihm, Aufgaben in verschiedenen digitalen Umgebungen auszuführen, z. B. Formulare auszufüllen oder im Web zu surfen.

Multimodal
Jan 23

🔥 Doubao-1.5-pro

Doubao-1.5-proByteDance

Doubao-1.5-pro ist ein von Doubao entwickeltes hochperformantes Sparse MoE (Mixture of Experts) großes Sprachmodell. Durch ein integriertes Design für Training und Inferenz wurde ein optimales Gleichgewicht zwischen Modellleistung und Inferenzleistung erreicht. Es zeigt hervorragende Ergebnisse in mehreren öffentlich verfügbaren Benchmark-Tests, insbesondere hinsichtlich Inferenzeffizienz und multimodaler Fähigkeiten. Das Modell eignet sich für Szenarien, die eine effiziente Inferenz und multimodale Interaktion erfordern, wie z. B. Verarbeitung natürlicher Sprache, Bilderkennung und Sprachinteraktion.

Multimodal
Jan 22

UI-TARS

UI-TARSByteDance

UI-TARS ist ein neuartiges GUI-Agentenmodell, das von ByteDance entwickelt wurde und sich darauf konzentriert, durch menschenähnliche Wahrnehmungs-, Schlussfolgerungs- und Handlungsfähigkeiten nahtlos mit grafischen Benutzeroberflächen zu interagieren. Das Modell integriert wichtige Komponenten wie Wahrnehmung, Schlussfolgerung, Lokalisierung und Gedächtnis in ein einziges visuell-sprachliches Modell und ermöglicht die End-to-End-Automatisierung von Aufgaben ohne vordefinierte Arbeitsabläufe oder manuelle Regeln.

Multimodal
Jan 22

Hunyuan3D 2.0

Hunyuan3D 2.0腾讯

Hunyuan3D 2.0 ist ein von Tencent entwickeltes fortschrittliches, großskaliges 3D-Synthese-System, das sich auf die Generierung von hochauflösenden, texturierten 3D-Assets konzentriert. Das System umfasst zwei grundlegende Komponenten: das großskalige Formgenerierungsmodell Hunyuan3D-DiT und das großskalige Textursynthesemodell Hunyuan3D-Paint. Durch die Entkopplung der Herausforderungen bei der Form- und Texturgenerierung bietet es Benutzern eine flexible Plattform zur Erstellung von 3D-Assets.

Bild
Jan 21

🔥 DeepSeek-R1

DeepSeek-R1DeepSeek

DeepSeek-R1 ist das erste Inferenzmodell des DeepSeek-Teams. Es wurde durch groß angelegtes Reinforcement Learning trainiert und zeigt ohne überwachte Feinabstimmung hervorragende Inferenzfähigkeiten. Das Modell liefert ausgezeichnete Ergebnisse bei mathematischen, Code- und Inferenzaufgaben und ist mit dem OpenAI-o1-Modell vergleichbar. DeepSeek-R1 bietet außerdem verschiedene destillierte Modelle für Szenarien mit unterschiedlichen Größen- und Leistungsanforderungen.

Sprache
Jan 20

🔥 Kimi k1.5

Kimi k1.5MoonshotAI

Kimi k1.5 ist ein von MoonshotAI entwickeltes multimodales Sprachmodell, das durch Reinforcement Learning und die Erweiterung langer Kontexte die Leistung des Modells bei komplexen Inferenzaufgaben deutlich verbessert. Das Modell erreichte in mehreren Benchmark-Tests branchenführende Ergebnisse, beispielsweise übertraf es GPT-4o und Claude Sonnet 3.5 in mathematischen Inferenzaufgaben wie AIME und MATH-500.

Sprache
Jan 20

🔥 Trae

TraeByteDance

Trae ist eine KI-gestützte integrierte Entwicklungsumgebung (IDE) für Entwickler. Sie unterstützt Entwickler durch intelligente Code-Vervollständigung, multimodale Interaktion und Kontextanalyse des gesamten Code-Repositorys bei der effizienteren Code-Erstellung.

Sprache
Jan 20

🔥 Ray2

Ray2​Luma AI

Luma AI hat das Ray2-Videogenerierungsmodell vorgestellt, das schnellere und natürlichere Bewegungseffekte erzielt. Es unterstützt hauptsächlich die Funktion zur Text-zu-Video-Generierung. Benutzer können eine Beschreibung eingeben und ein 5 bis 10 Sekunden langes Kurzvideo generieren.

Video
Jan 16

FLUX Pro Finetuning API

FLUX Pro Finetuning APIBlack Forest Labs

Die FLUX Pro Finetuning API ist ein von Black Forest Labs entwickeltes Werkzeug zur individuellen Anpassung von generativen Text-zu-Bild-Modellen. Sie ermöglicht es Nutzern, das FLUX Pro Modell anhand weniger Beispielbilder (1-5 Bilder) zu feinabstimmen, um qualitativ hochwertige Bildinhalte zu generieren, die spezifischen Marken-, Stil- oder visuellen Anforderungen entsprechen.

Bild
Jan 16

🔥 moonshot-v1-vision-preview

moonshot-v1-vision-previewMoonshot AI

Das Kimi-Sehmodell ist eine fortschrittliche Technologie zum Bildverständnis, die über die Moonshot AI-Open-Source-Plattform bereitgestellt wird. Es kann Text, Farben und Objektformen in Bildern präzise erkennen und verstehen und bietet Benutzern leistungsstarke Funktionen zur visuellen Analyse.

Bild
Jan 15

🔥 MiniMax-01 series

MiniMax-01 seriesMiniMax

Die MiniMax-01-Serie ist ein von MiniMax veröffentlichtes Open-Source-Modell, das MiniMax-Text-01 und MiniMax-VL-01 umfasst. Diese Serie implementiert erstmals im großen Maßstab den innovativen Blitz-Aufmerksamkeitsmechanismus und bietet eine mit den weltweit führenden Modellen vergleichbare Leistung. Sie kann effizient extrem lange Kontexte mit bis zu 4 Millionen Token verarbeiten und ist ein Vorreiter im Zeitalter der KI-Agenten.

Bild
Jan 15

ReaderLM v2

ReaderLM v2Jina AI

ReaderLM v2 ist ein von Jina AI entwickeltes kleines Sprachmodell mit 1,5 Milliarden Parametern, das speziell für die Konvertierung von HTML in Markdown und die Extraktion von HTML in JSON entwickelt wurde und sich durch herausragende Genauigkeit auszeichnet. Das Modell unterstützt 29 Sprachen und kann Eingaben und Ausgaben mit einer kombinierten Länge von bis zu 512.000 Tokens verarbeiten.

Sprache
Jan 15

🔥 Codestral 25.01

Codestral 25.01Mistral AI

Codestral 25.01 ist ein von Mistral AI entwickeltes, fortschrittliches Modell zur Programmierunterstützung, das die Spitze der aktuellen Technologie im Bereich der Programmiermodelle darstellt. Das Modell zeichnet sich durch seine Leichtigkeit, Schnelligkeit und die Beherrschung von über 80 Programmiersprachen aus. Es wurde für den Einsatz in Szenarien mit geringer Latenz und hoher Frequenz optimiert und unterstützt Aufgaben wie Code Completion (FIM), Codekorrektur und Testgenerierung.

Sprache
Jan 14

🔥 万相营造

万相营造阿里妈妈

Wanxiang Yingzao ist ein von Alibaba Mama entwickeltes KI-Tool für die Kreativgestaltung, das Händlern helfen soll, schnell hochwertige Werbematerialien zu erstellen und die Marketingwirkung zu verbessern. Es nutzt fortschrittliche KI-Technologie, um Funktionen wie die Umwandlung von Bildern in Videos, intelligentes Anprobieren und die Generierung von Texten zu ermöglichen und so die Anforderungen von E-Commerce-Händlern in verschiedenen Marketing-Szenarien zu erfüllen.

Video
Jan 14

🔥 DeepSeek APP

DeepSeek APPDeepSeek

Die DeepSeek App ist jetzt offiziell verfügbar, sowohl für iOS als auch für Android.

Sprache
Jan 13

🔥 日日新融合大模型

日日新融合大模型商汤科技

SenseTime präsentiert das neue große, fusionierte Modell "Rixin" mit deutlich verbesserten Fähigkeiten in Deep Reasoning und multimodaler Verarbeitung.

Sprache
Jan 10

🔥 通义万相2.1模型

通义万相2.1模型阿里巴巴

Die neue Version 2.1 des Tongyi Wanxiang Videogenerierungsmodells von Alibaba wurde veröffentlicht.

Video
Jan 9

🔥 Moondream2

Moondream2Moondream

Moondream ist ein kleines visuelles Sprachmodell, das für einen effizienten Betrieb auf Edge-Geräten entwickelt wurde.

Sprache
Jan 9

🔥 OpenBMB PRIME

OpenBMB PRIMEOpenBMB

Eurus-2-7B-PRIME ähnelt o1 und wurde mit der PRIME-Methode (Process Reward with Implicit Reward Enhancement) trainiert, einer Open-Source-Lösung für Online-Verstärkungslernen (RL) mit Prozessbelohnungen, um die Inferenzfähigkeit oder Destillation von Sprachmodellen über die bloße Imitation hinaus zu verbessern. Es basiert auf Eurus-2-7B-SFT und wurde auf Eurus-2-RL-Data trainiert.

Sprache
Jan 7

🔥 Nvidia Cosmos

Nvidia CosmosNvidia

NVIDIA Cosmos™ ist eine Plattform, die aus hochmodernen Generative-World-Foundation-Modellen (WFM), fortschrittlichen Tokenizern, Sicherheitsvorkehrungen und beschleunigten Datenverarbeitungs- und -verwaltungs-Pipelines besteht und darauf ausgelegt ist, die Entwicklung physikalischer KI-Systeme wie autonomer Fahrzeuge (AV) und Roboter zu beschleunigen.

Video
Jan 6

🔥 J1 Assistant

J1 AssistantJarvis

Das von Luo Yonghao gegründete KI-Startup Jarvis hat heimlich eine AI-Assistenzsoftware namens „J1Assistant“ veröffentlicht. Derzeit ist die Software nur im Ausland als Android-Version verfügbar.

Sprache
Jan 6