KI-Nachrichten

Verpassen Sie keinen Moment der globalen KI-Innovation

KI-Tagesübersicht

Tägliche Drei-Minuten-KI-Branchentrends

KI-Zeitleiste

Meilensteine der KI-Industrie

Al hardware

die artillerie der artillerie

KI-Monetarisierungs-Leitfaden

Neueste Fälle

KI-Monetarisierungsfall-Sharing

Bildersammlung

KI-Bilderstellungs-Monetarisierungsfälle

Videosammlung

KI-Videoerstellungs-Monetarisierungsfälle

Audiosammlung

KI-Audioerstellungs-Monetarisierungsfälle

Inhaltssammlung

KI-Content-Writing-Monetarisierungsfälle

KI-Tutorials

Neueste Tutorials

Kostenlose Weitergabe der neuesten KI-Tutorials

KI-Produkt-Rankings

KI-Produkt-Ranking

Zeigt das Ranking der Gesamtbesuche von KI-Websites

KI-Traffic-Wachstumsranking

Verfolgen Sie die am schnellsten wachsenden KI-Websites nach Traffic

KI-Traffic-Rückgangsranking

Konzentrieren Sie sich auf KI-Websites mit signifikanten Traffic-Einbrüchen

KI-Wochenranking

Zeigt das wöchentliche Besuchsranking von KI-Websites

Beliebte Länder-Rankings

Vereinigte Staaten

KI-Websites, die bei US-Nutzern am beliebtesten sind

China

KI-Websites, die bei chinesischen Nutzern am beliebtesten sind

Indien

KI-Websites, die bei indischen Nutzern am beliebtesten sind

Brasilien

KI-Websites, die bei brasilianischen Nutzern am beliebtesten sind

Beliebte Kategorie-Rankings

Bildgenerierung

Ranking der Gesamtbesuche von KI-Bildgenerierungs-Websites

Persönlicher Assistent

Ranking der Gesamtbesuche von KI-Websites für persönliche Assistenten

Charaktergenerierung

Ranking der Gesamtbesuche von KI-Websites zur Charaktergenerierung

Videogenerierung

Ranking der Gesamtbesuche von KI-Videogenerierungs-Websites

Beliebte Open-Source-Datenrankings

KI-Projektranking

GitHub beliebte KI-Projekte nach Gesamt-Stars

KI-Projektwachstumsranking

GitHub beliebte KI-Projekte nach Wachstumsrate

KI-Entwickler-Ranking

GitHub beliebtes KI-Entwickler-Ranking

KI-Organisationsranking

GitHub beliebtes KI-Organisationsranking

Beliebte Open-Source-Kategorien

Deepseek

GitHub beliebte Deepseek Open-Source-Projekte

TTS

GitHub beliebte TTS Open-Source-Projekte

LLM

GitHub beliebte LLM Open-Source-Projekte

ChatGPT

GitHub beliebte ChatGPT Open-Source-Projekte

KI-Open-Source-Projektbibliothek

Überblick

Überblick über GitHub beliebte KI-Open-Source-Projekte

Produktbibliothek Tool Navigation

CogVLM2

Zweitgeneratives multimodal prätrainiertes Dialogmodell

Normales ProduktProduktivitätMultimodalPretrainiertes Modell

Website öffnen

CogVLM2 ist ein von einem Team der Tsinghua-Universität entwickeltes zweitgeneratives multimodal prätrainiertes Dialogmodell. Es erzielt in mehreren Benchmark-Tests deutliche Verbesserungen und unterstützt eine Inhaltslänge von 8K sowie eine Bildauflösung von 1344*1344. Die CogVLM2-Modellreihe bietet Open-Source-Versionen mit Unterstützung für Chinesisch und Englisch und erreicht eine mit einigen nicht Open-Source-Modellen vergleichbare Leistung.

Website öffnen

CogVLM2 Neueste Verkehrssituation

Monatliche Gesamtbesuche

521149929

Absprungrate

35.96%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:29

CogVLM2 Besuchstrend

CogVLM2 Geografische Verteilung der Besuche

CogVLM2 Traffic-Quellen

CogVLM2 Alternativen

CogVLM2 — Zweitgeneratives multimodal prätrainiertes Dialogmodell

Produktivität

•Multimodal•Pretrainiertes Modell

582

POINTS-Yi-1.5-9B-Chat — Neueste Fortschritte im Bereich visueller Sprachmodelle, integriert mit neuen Technologien von WeChat AI.

Produktivität

•Visuelles Sprachmodell•WeChat AI

162

POINTS-Qwen-2-5-7B-Chat — Neueste Fortschritte bei visuellen Sprachmodellen

Produktivität

•Visuelles Sprachmodell•Multimodal

150

Meta Llama 3.3 — Multilinguales großes Sprachmodell mit 70 Milliarden Parametern

Programmierung

•Mehrsprachig•Pretrainiertes Modell

198

Aria-Base-64K — Multimodales, natives Mixture-of-Experts-Modell

Produktivität

•Multimodal•Verarbeitung langer Texte

120

Ferret-UI-Llama8b — Ein multimodaler großes Sprachmodell (MLLM) basierend auf Llama-3-8B, das sich auf UI-Aufgaben konzentriert.

Programmierung

•Multimodal•Großes Sprachmodell

342

MiniGPT-5 — Multimodales Modell zur Erzeugung von Bildern und Sprache

Programmierung

•NLP•CV

516

Liquid — Ein multimodales Generierungsmodell, das visuelle Verständnis und Generierung integriert.

Produktivität

•Multimodal•Generatives Modell

InternVL3 — InternVL3 Open Source: 7 Größen decken Text-, Bild- und Videoverarbeitung ab, Multimodalität erweitert auf industrielle Bildanalyse

Produktivität

•KI•Multimodal

Kimi-VL — Effizientes, quelloffenes Experten-Mix-visuell-sprachliches Modell mit multimodalen Schlussfolgerungsfähigkeiten.

Inländische Auswahl

•Multimodal•Schlussfolgerung

Amazon Nova Sonic — Amazons neues Basismodell versteht Tonfall, Tonhöhe und Rhythmus und verbessert die Natürlichkeit des Dialogs zwischen Mensch und Maschine.

Produktivität

•Spracherkennung•Künstliche Intelligenz

DreamActor-M1 — Ein auf DiT basierender Framework für die menschliche Bildanimation, der präzise Steuerung und langfristige Konsistenz ermöglicht.

Produktivität

•Menschliche Animation•Videogenerierung

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

Internationale Auswahl

•Inteligência Artificial•Programação

102

Mistral Small 3.1 — Open-Source-Modell zur Verbesserung der Text- und Bildverarbeitungsfähigkeiten.

Produktivität

•Multimodal•Textverarbeitung

276

MistralOCR.net — Mistral OCR ist ein leistungsstarkes OCR-Produkt zum Verständnis von Dokumenten, das mit sehr hoher Genauigkeit Text, Bilder, Tabellen und Gleichungen aus PDFs und Bildern extrahieren kann.

Produktivität

•Dokumentenverarbeitung•OCR

258

Gemini Robotics — Robotermodell basierend auf Gemini 2.0, das KI in die physische Welt bringt und über visuelle, sprachliche und motorische Fähigkeiten verfügt.

Internationale Auswahl

•Künstliche Intelligenz•Robotik

180

R1-Omni — R1-Omni ist ein multimodalen Emotionserkennungsmodell, das Reinforcement Learning integriert und sich auf die Verbesserung der Interpretierbarkeit der multimodalen Emotionserkennung konzentriert.

Programmierung

•Multimodal•Emotionserkennung

330

GO-1 — Zhiyuan veröffentlicht das erste universelle, verkörperte Basis-Großmodell GO-1 und präsentiert bahnbrechend die ViLLA-Architektur, um die Entwicklung der verkörperten KI voranzutreiben.

Inländische Auswahl

•Verkörperte KI•Multimodal

210

OpenAI Agents SDK — Das OpenAI Agents SDK ist ein Entwicklungskit zum Erstellen autonomer Agents und vereinfacht die Orchestrierung von Multi-Agenten-Workflows.

Internationale Auswahl

•Künstliche Intelligenz•Agents

294

SmolVLM2 — SmolVLM2 ist ein leichtgewichtiges Sprachmodell, das sich auf die Analyse und Generierung von Videoinhalten konzentriert.

Video

•Videoanalyse•Textgenerierung

162

Aya Vision — Aya Vision ist ein mehrsprachiges, multimodales visuelles Modell von Cohere, das darauf abzielt, das Verständnis von visuellem und Textmaterial in mehrsprachigen Szenarien zu verbessern.

Internationale Auswahl

•Mehrsprachig•Multimodal

132

EgoLife — EgoLife ist ein langfristiges, multimodales und mehrperspektivisches Projekt für einen KI-Assistenten im Alltag, das darauf abzielt, die Forschung zum Verständnis von Langzeitkontexten voranzutreiben.

Produktivität

•KI•Multimodal

102

UniTok — UniTok ist ein einheitlicher visueller Tokenizer für die visuelle Generierung und das visuelle Verständnis.

Bild

•Künstliche Intelligenz•Visuelle Generierung

150

ViDoRAG — ViDoRAG ist ein dynamisches iteratives Inferenz-Agenten-Framework, das die visuelle Dokumentensuche mit der Generierung kombiniert.

Programmierung

•Multimodal•Retrieval-Enhanced-Generierung

120

Mochii AI — Mochii AI ist ein personalisiertes KI-Ökosystem, das von hochmodernen Modellen unterstützt wird und die Zukunft der Zusammenarbeit zwischen Mensch und KI vorantreibt.

Inländische Auswahl

•Künstliche Intelligenz•Produktivitätswerkzeug

162

M2RAG — Code-Repository für Benchmark-Tests zur retrieval-augmented generation in multimodalen Kontexten.

Programmierung

•Multimodal•Retrieval-augmented Generation

108

TheoremExplainAgent — TheoremExplainAgent ist ein intelligentes System zur Generierung multimodaler Erklärvideos für Theoreme.

Bildung

•Künstliche Intelligenz•Bildung

138

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct ist ein leichtgewichtiges, multimodales Basismodell von Microsoft, das Text-, Bild- und Audioeingaben unterstützt.

Produktivität

•Multimodal•Spracherkennung

144

Magma-8B — Magma-8B ist ein von Microsoft entwickeltes multimodales KI-Modell, das Bild- und Texteingaben verarbeiten und Textausgaben generieren kann.

Bild

•Multimodal•KI

120

DeepSeek Japanisch — DeepSeek ist ein fortschrittliches KI-Sprachmodell, das sich auf logisches Denken, Mathematik und Programmieraufgaben spezialisiert hat und kostenlos nutzbar ist.

Produktivität

•KI•Sprachmodell

234