智源研究院开源 JudgeLM Bewertungsmodell zur Bewertung verschiedener großer Sprachmodelle und Ausgabe von Bewertungen

站长之家

Veröffentlicht amKI-Nachrichten und -Informationen · 2 Minuten Lesezeit · Nov 13, 2023

126

JudgeLM: Ein effizientes Bewertungsmodell für große Sprachmodelle

Das Beijing Academy of Artificial Intelligence (BAAI) Forschungsinstitut hat ein Bewertungsmodell namens JudgeLM als Open Source veröffentlicht. Dieses Modell bewertet verschiedene große Sprachmodelle effizient und präzise.

Im Vergleich zu GPT-4 erreicht JudgeLM mit nur 1/120 der Kosten eine Übereinstimmung der Bewertungsergebnisse von über 90%. JudgeLM ist auf verschiedene Bewertungsszenarien anwendbar, darunter reine Texte und multimodale Daten, und kann Punktzahlen, Urteile und Begründungen liefern.

Durch innovative Methoden erreicht JudgeLM eine Übereinstimmung mit Referenzantworten von über 90%, was dem menschlichen Leistungsniveau nahekommt.

Das BAAI Forschungsinstitut hat außerdem einen Datensatz mit Trainings- und Validierungsbeispielen als Open Source veröffentlicht, um die Forschung zu Bewertungsmethoden für große Sprachmodelle zu fördern.

Zukünftig wird das JudgeLM-Team das Bewertungsmodell weiter verbessern und ein noch genaueres, effizienteres und vielseitigeres Modell für die Bewertung großer Sprachmodelle bereitstellen.

Rangliste der Halluzinationen großer Sprachmodelle: Gemini 2.0 Flash mit den niedrigsten Halluzinationen

Vectara hat kürzlich einen Bericht mit dem Titel „Halluzinationsrangliste“ veröffentlicht, in dem die Leistung verschiedener großer Sprachmodelle (LLMs) beim Generieren von Halluzinationen beim Zusammenfassen kurzer Dokumente verglichen wird. Diese Rangliste verwendet das Hughes-Halluzinationsbewertungsmodell (HHEM-2.1) von Vectara, ein regelmäßig aktualisiertes Modell, das darauf abzielt, die Häufigkeit zu bewerten, mit der diese Modelle falsche Informationen in Zusammenfassungen einfügen. Laut den neuesten Daten weist der Bericht die Halluzinationsrate, die Faktenkonsistenzrate, die Antwortquote und die durchschnittliche Länge der Zusammenfassungen einer Reihe gängiger Modelle aus.

智源研究院发布中文互联网语料库CCI 3.0，包含 1000 GB 数据集

Auf dem Beijing Culture Forum 2024 gab das Beijing Academy of Artificial Intelligence (BAAI) die offizielle Veröffentlichung des CCI 3.0 (Chinese Corpora Internet), der neuen Generation des chinesischen Internet-Korpus, bekannt. Dies fördert die gemeinsame Nutzung und den Aufbau von Daten weiter. CCI 3.0 umfasst einen Datensatz von 1000 GB und einen 498 GB großen hochwertigen Subset CCI 3.0-HQ. Dies ist nach der erstmaligen Open-Source-Veröffentlichung von CCI 1.0 im November 2023 und der Veröffentlichung von CCI 2.0 im April 2024 ein weiteres wichtiges Update.

智源研究院推出包含文生视频模型对战评测服务：FlagEval大模型角斗场

Am 4. September 2024 gab das Beijing Academy of Artificial Intelligence (BAAI) die Einführung von FlagEval, der weltweit ersten Modell-Battle- und Bewertungsdienstleistung mit Text-zu-Video-Funktionen, bekannt. Dieser Service steht Nutzern offen und umfasst etwa 40 große Sprachmodelle aus dem In- und Ausland. Er unterstützt benutzerdefinierte Online- oder Offline-Bewertungen für vier Aufgaben: Sprachfragen und Antworten, multimodalen Bild- und Textverständnis, Text-zu-Bild und Text-zu-Video.

智源研究院发布全球首个万亿参数稠密模型 Tele-FLM-1T (开源)

Das Beijing Institute for Artificial Intelligence (BAAI) und das China Telecom Artificial Intelligence Research Institute haben gemeinsam die aktualisierte Version der Tele-FLM-Serie großer Sprachmodelle vorgestellt, darunter das 52B-Parameter-Instruktionsmodell FLM-2-52B-Instruct und das Trillion-Parameter-Modell Tele-FLM-1T. FLM-2-52B-Instruct wurde durch Instruktions-Feinabstimmung optimiert, um die Fähigkeiten im chinesischen Dialog zu verbessern und erreicht 90% des Niveaus von GPT-4. Es basiert auf dem Tele-FLM-52B-Basismodell und verwendet einen spezifischen Datensatz und Parameteroptimierung. Tele-FLM-1T...