Im Bereich der künstlichen Intelligenz waren Rechenleistung und Zeit immer entscheidende Faktoren, die den technischen Fortschritt behindert haben. Die jüngsten Forschungsergebnisse des DeepMind-Teams bieten jedoch eine Lösung für dieses Problem.

Sie haben eine neue Datenfiltermethode namens JEST vorgestellt, die durch intelligente Auswahl der besten Datenbatches für das Training eine erhebliche Verkürzung der KI-Trainingszeit und eine deutliche Reduzierung des Rechenleistungsbedarfs ermöglicht. Angeblich kann die KI-Trainingszeit um das 13-fache reduziert und der Rechenleistungsbedarf um 90 % gesenkt werden.

image.png

Der Kern der JEST-Methode liegt in der gemeinsamen Auswahl der besten Datenbatches anstelle einzelner Stichproben. Diese Strategie hat sich als besonders effektiv bei der Beschleunigung des multimodalen Lernens erwiesen. Im Vergleich zu herkömmlichen Methoden zur Datenfilterung bei großem prädiktivem Training reduziert JEST nicht nur die Anzahl der Iterationen und Gleitkommaoperationen erheblich, sondern übertrifft auch den bisherigen Stand der Technik, selbst wenn nur 10 % des FLOP-Budgets verwendet werden.

Die Forschung des DeepMind-Teams hat drei wichtige Schlussfolgerungen ergeben: Die Auswahl guter Datenbatches ist effektiver als die einzelne Auswahl von Datenpunkten, die Online-Modellnäherung kann für eine effizientere Datenfilterung verwendet werden und kleine, hochwertige Datensätze können verwendet werden, um größere, nicht ausgewählte Datensätze zu nutzen. Diese Erkenntnisse liefern die theoretische Grundlage für die hohe Effizienz der JEST-Methode.

JEST funktioniert, indem es die vorherigen Arbeiten zum RHO-Verlust nutzt und die Lernfähigkeit von Datenpunkten anhand des Verlusts von Lernmodell und prädiktivem Referenzmodell bewertet. Es wählt die Datenpunkte aus, die für das prädiktive Modell einfach, aber für das aktuelle Lernmodell schwierig sind, um so die Trainingseffizienz und -wirkung zu verbessern.

Darüber hinaus verwendet JEST eine iterative Methode basierend auf blockiertem Gibbs-Sampling, um schrittweise Batches zu erstellen. In jeder Iteration wird eine neue Teilmenge von Stichproben basierend auf dem bedingten Lernfähigkeits-Score ausgewählt. Diese Methode verbessert sich kontinuierlich bei der Filterung weiterer Daten, einschließlich der Verwendung eines nur auf dem prädiktiven Referenzmodell basierenden Scores für die Daten.

Diese Forschung von DeepMind ist nicht nur ein bahnbrechender Fortschritt im Bereich des KI-Trainings, sondern bietet auch neue Ideen und Methoden für die zukünftige Entwicklung der KI-Technologie. Mit der weiteren Optimierung und Anwendung der JEST-Methode können wir mit Fug und Recht davon ausgehen, dass die Entwicklung der künstlichen Intelligenz eine noch vielversprechendere Zukunft erleben wird.

Artikel:https://arxiv.org/abs/2406.17711

Wichtigste Punkte:

🚀 **Revolution der Trainingseffizienz**: Die JEST-Methode von DeepMind reduziert die KI-Trainingszeit um das 13-fache und den Rechenleistungsbedarf um 90 %.

🔍 **Datenbatch-Filterung**: JEST verbessert die Effizienz des multimodalen Lernens durch die gemeinsame Auswahl der besten Datenbatches anstelle einzelner Stichproben.

🛠️ **Innovative Trainingsmethode**: JEST optimiert die Datenverteilung und die Generalisierungsfähigkeit des prädiktiven Trainings durch die Verwendung von Online-Modellnäherung und der Anleitung durch hochwertige Datensätze.