Klein, aber oho! 10-köpfiges Team entwickelt erstes feingetuntes Llama 3.1 405B Modell

Ein nur 10-köpfiges Team wagt es, den Technologie-Giganten Meta herauszufordern – eine moderne Version von „David gegen Goliath“!

Das Startup Nous Research ist kein Unbekannter. Ihr kürzlich veröffentlichtes Hermes3 ist ein auf Llama 3.1 basierendes, feinabgestimmtes 405B-Modell. Trotz der geringen Teamgröße ist die Leistung beeindruckend. Das „Zehn-Mann-Team“ hat bereits mehrere Modelle wie Mistral, Yi und Llama erfolgreich feinabgestimmt und verzeichnet über 33 Millionen Downloads – eine wahre „Erfolgsmaschine“ der KI-Welt!

Hermes3 ist wie ein Energieschub für die KI-Welt. Selbst nach FP8-Quantisierung ist seine Leistung atemberaubend. Diese Optimierung reduziert nicht nur den VRAM- und Festplattenbedarf erheblich, sondern ermöglicht auch den Betrieb von Hermes3 auf einem einzelnen Knoten – ein wahrer Segen für Entwickler!

In Bezug auf die Konversationsfähigkeit ist Hermes3 ein echter Alleskönner. Langzeitgedächtnis, mehrstufige Dialoge, Rollenspiele oder innerer Monolog – alles wird mühelos gemeistert. Dank des 128K-Kontextfensters von Llama 3.1 ist die Konsistenz der Dialoge bemerkenswert – wie ein erfahrener Diplomat.

Doch Hermes3 kann noch mehr. Es zeigt erweiterte Fähigkeiten, die über traditionelle Sprachmodelle hinausgehen, und kann die Qualität von generierten Texten präzise und differenziert verstehen und bewerten. Es kann also nicht nur eloquent sprechen, sondern auch als strenger Textexperte fungieren!

Noch erstaunlicher ist die Integration mehrerer Agentenfunktionen, darunter strukturierte Ausgaben, die Ausgabe von Zwischenschritten und die Generierung eines inneren Monologs für transparente Entscheidungen. Das ist wie ein „transparentes Gehirn“ für die KI, das uns einen Einblick in ihren Denkprozess gewährt.

Das Training von Hermes3 war ein wahrer „Höllentrip“ in der KI-Welt. Es umfasste zwei Phasen: Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO). Das Team verbrachte ganze fünf Monate mit der Auswahl und Erstellung des SFT-Datensatzes – eine beeindruckende Hingabe und Geduld.

Nous Research, eine 2023 gegründete private angewandte Forschungsgruppe mit Sitz in New York, ist ein echter „Barbarensturm“ in der KI-Welt. Das Team glaubt an die Kraft von Open Source und will die Innovationsgrenzen geschlossener Technologien herausfordern. Der Slogan des Unternehmens ist inspirierend: „Wir bestreiten die Annahme, dass geschlossene Technologien immer die Spitze der Innovation besetzen, und bieten stattdessen leistungsstarken Open-Source-Code.“

In etwas mehr als einem Jahr hat Nous Research 5 Datensätze und 89 Modelle veröffentlicht – eine Produktivität, die zeigt: Größe ist nicht entscheidend, Leistung zählt!

Paper-Adresse: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

Offizielle Webseite: https://nousresearch.com/freedom-at-the-frontier-hermes-3/

KI-Nachrichten und -Informationen

Klein, aber oho! 10-köpfiges Team entwickelt erstes feingetuntes Llama 3.1 405B Modell

AIbase基地