智源发布全球最大的中文和英文语义向量模型训练数据集 MTP

站长之家

Veröffentlicht amKI-Nachrichten und -Informationen · 1 Minuten Lesezeit · Sep 18, 2023

Das Forschungsinstitut für Künstliche Intelligenz (Beijing Academy of Artificial Intelligence, BAAI) hat mit MTP den weltweit größten Trainingsdatensatz für semantische Vektormodelle in Chinesisch und Englisch veröffentlicht. Dieser umfasst beeindruckende 300 Millionen Paarungen. Der Datensatz enthält chinesisch-englische Textpaare aus verschiedenen Quellen und bildet eine wichtige Grundlage für das Training von semantischen Vektormodellen für Chinesisch und Englisch.

BAAI betont die entscheidende Rolle von Daten für das Training großer Sprachmodelle und deren Beitrag zur Förderung von Innovationen im Bereich der künstlichen Intelligenz. Die Veröffentlichung dieses Datensatzes verspricht, das Problem des Mangels an Trainingsdaten für chinesische Modelle zu lösen.

智源研究院发布中文互联网语料库CCI 3.0，包含 1000 GB 数据集

Auf dem Beijing Culture Forum 2024 gab das Beijing Academy of Artificial Intelligence (BAAI) die offizielle Veröffentlichung des CCI 3.0 (Chinese Corpora Internet), der neuen Generation des chinesischen Internet-Korpus, bekannt. Dies fördert die gemeinsame Nutzung und den Aufbau von Daten weiter. CCI 3.0 umfasst einen Datensatz von 1000 GB und einen 498 GB großen hochwertigen Subset CCI 3.0-HQ. Dies ist nach der erstmaligen Open-Source-Veröffentlichung von CCI 1.0 im November 2023 und der Veröffentlichung von CCI 2.0 im April 2024 ein weiteres wichtiges Update.

智源研究院推出包含文生视频模型对战评测服务：FlagEval大模型角斗场

Am 4. September 2024 gab das Beijing Academy of Artificial Intelligence (BAAI) die Einführung von FlagEval, der weltweit ersten Modell-Battle- und Bewertungsdienstleistung mit Text-zu-Video-Funktionen, bekannt. Dieser Service steht Nutzern offen und umfasst etwa 40 große Sprachmodelle aus dem In- und Ausland. Er unterstützt benutzerdefinierte Online- oder Offline-Bewertungen für vier Aufgaben: Sprachfragen und Antworten, multimodalen Bild- und Textverständnis, Text-zu-Bild und Text-zu-Video.

ByteDance Doubao Sprach- und Bildmodell verbessert – Gesamtperformance um 20,3% gesteigert

Auf der Volcano Engine AI Innovation Tour Shanghai am 21. August 2024 präsentierte Volcano Engine umfassende Verbesserungen des Doubao großen Sprachmodells. Dazu gehören eine präzisere Bild-Text-Zuordnung des Doubao Bildgenerierungsmodells für lange Texte, eine um bis zu 40% reduzierte Fehlerquote des Doubao Spracherkennungsmodells in mehreren öffentlichen Testsätzen und ein verbessertes Streaming-Sprachsynthese-Verfahren des Doubao Sprachsynthesemodells für Echtzeit-Reaktionen und präzise Satzgrenzen. Volcano Engine veröffentlichte außerdem eine Echtzeit-Interaktionslösung für konversationelle KI, die das Doubao große Sprachmodell und Echtzeit-Audio-Videotechnologie integriert und eine End-to-End-

智源研究院发布全球首个万亿参数稠密模型 Tele-FLM-1T (开源)

Das Beijing Institute for Artificial Intelligence (BAAI) und das China Telecom Artificial Intelligence Research Institute haben gemeinsam die aktualisierte Version der Tele-FLM-Serie großer Sprachmodelle vorgestellt, darunter das 52B-Parameter-Instruktionsmodell FLM-2-52B-Instruct und das Trillion-Parameter-Modell Tele-FLM-1T. FLM-2-52B-Instruct wurde durch Instruktions-Feinabstimmung optimiert, um die Fähigkeiten im chinesischen Dialog zu verbessern und erreicht 90% des Niveaus von GPT-4. Es basiert auf dem Tele-FLM-52B-Basismodell und verwendet einen spezifischen Datensatz und Parameteroptimierung. Tele-FLM-1T...