MNBVC

MNBVC ist ein extrem umfangreicher chinesischer Korpus, vergleichbar mit den 40 TB Daten, mit denen ChatGPT trainiert wurde.

Normales ProduktOpen SourceVerarbeitung natürlicher SpracheChinesischer Korpus

Website öffnen

MNBVC (Massive Never-ending BT Vast Chinese corpus) ist ein Projekt, das darauf abzielt, KI mit umfangreichen chinesischen Sprachdaten zu versorgen. Es umfasst nicht nur Inhalte der Mainstream-Kultur, sondern auch Nischenkultur und Internet-Slang. Der Datensatz beinhaltet verschiedene Formen rein textbasierter chinesischer Daten, darunter Nachrichten, Aufsätze, Romane, Bücher, Zeitschriften, wissenschaftliche Arbeiten, Dialoge, Beiträge, Wiki-Einträge, klassische Gedichte, Liedtexte, Produktbeschreibungen, Witze, peinliche Geschichten und Chatverläufe.

Best AI Websites & Tools

MNBVC

MNBVC Neueste Verkehrssituation

MNBVC Besuchstrend

MNBVC Geografische Verteilung der Besuche

MNBVC Traffic-Quellen

MNBVC Alternativen

MNBVC — MNBVC ist ein extrem umfangreicher chinesischer Korpus, vergleichbar mit den 40 TB Daten, mit denen ChatGPT trainiert wurde.

dolmino-mix-1124 — Hochwertiger Datensatz für die zweite Phase des OLMo2-Trainings.

olmOCR — olmOCR ist ein Toolkit zur Linearisierung von PDFs für das Training von LLM-Datensätzen.

ModernBERT — ModernBERT ist ein hochperformantes Encoder-Modell der neuen Generation.

AGIBOT WORLD — Umfangreicher Roboterlern-Datensatz zur Förderung der Entwicklung vielseitig einsetzbarer Roboterstrategien.

Llama-lynx-70b-4bitAWQ — Ein 70 Milliarden Parameter umfassendes Textgenerierungsmodell

OLMo 2 1124 7B Präferenz-Mix — Großer Textdatensatz für die Erforschung von Präferenzmischungen

OLMo-2-1124-7B-SFT — Hochleistungsfähiges Modell zur englischen Textgenerierung

Epoch AI — Plattform für KI-Forschung und Trendanalyse

1X Weltmodell — Ein fortschrittliches Weltmodell zur virtuellen Simulation und Evaluierung von Robotern.

pixtral-12b-240910 — Multimodales großes Sprachmodell, das Bild- und Textverständnis unterstützt.

Phi-3.5-Vision — Ein fortschrittliches multimodales Modell, das Bild- und Textverständnis unterstützt.

MedTrinity-25M — Großer multimodaler medizinischer Datensatz

UltraEdit — Großmaßstäbiger Bildbearbeitungsdatensatz

Chatgoo — Intelligenter Frage-Antwort-Assistent für schnelle Antworten auf diverse Fragen.

emo-visual-data — Emoji-Visual-Daten-Datensatz

MiLM-6B — Von Xiaomi entwickeltes, großes prätrainiertes Sprachmodell mit 6,4 Milliarden Parametern.

MAP-NEO — Ein vollständig quelloffenes großes Sprachmodell, das fortschrittliche Fähigkeiten in der Verarbeitung natürlicher Sprache bietet.

Hyperscience — Automatisierung der Dokumentenverarbeitung, die unstrukturierte Inhalte in strukturierte, verarbeitbare Daten umwandelt.

UBIAI — Vereinfacht den Zugriff auf und die Wirtschaftlichkeit von Lösungen für die Verarbeitung natürlicher Sprache und maschinelles Lernen, um bessere und intelligentere Entscheidungen zu ermöglichen.

I2VGen-XL — KI-Modellbibliothek und Datenplattform

Anthropic — Gestaltung der Zukunft der Künstlichen Intelligenz

ModularMind — Kein Code benötigter KI-Baukasten. KI ist kein Zauber, sondern ModularMind.

Nextatlas Generate — Weltweit erster generativer Trendprognosedienst

Instella — Instella ist ein von AMD entwickeltes, leistungsstarkes Open-Source-Sprachmodell, das speziell für die Beschleunigung der Entwicklung von Open-Source-Sprachmodellen entwickelt wurde.

Aya Vision — Aya Vision ist ein mehrsprachiges, multimodales visuelles Modell von Cohere, das darauf abzielt, das Verständnis von visuellem und Textmaterial in mehrsprachigen Szenarien zu verbessern.

Firefox Translations Models — Für die Übersetzungsfunktion des Firefox-Browsers optimierte, CPU-beschleunigte neuronale maschinelle Übersetzung.

Shandu — Ein KI-gesteuertes Forschungssystem, das mehrere Suchmaschinen und LLMs für eine umfassende iterative Forschung nutzt.

Microsoft Dragon Copilot — Microsoft Dragon Copilot ist ein KI-Arbeitsbereich für das Gesundheitswesen, der klinische Dokumentationsworkflows vereinfacht und die Effizienz steigert.

3FS — 3FS ist ein hochperformantes, verteiltes Dateisystem, das speziell für KI-Trainings- und Inferenz-Workloads entwickelt wurde.