Ein Forschungsteam hat kürzlich eine aufregende neue Methode namens T-FREE vorgestellt, die die Effizienz großer Sprachmodelle deutlich steigert. Wissenschaftler von Aleph Alpha, der Technischen Universität Darmstadt, hessian.AI und dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) haben diese beeindruckende Technologie entwickelt, die mit vollem Namen „Marker-freie, sparsame Repräsentationen für speichereffizientes Embedding“ heißt.
Traditionell werden Tokenizer verwendet, um Text in eine für Computer verständliche numerische Form zu übersetzen. T-FREE hingegen wählt einen anderen Ansatz. Es nutzt Charakter-Triplets, sogenannte „Triplets“, um Wörter direkt und mit sparsamer Aktivierung in das Modell einzubetten. Das Ergebnis dieser Innovation ist eine erstaunliche Reduktion der Parameterzahl der Einbettungsschicht um über 85%, ohne dass die Leistung des Modells bei Aufgaben wie Textklassifizierung und Frage-Antwort-Systemen beeinträchtigt wird.
Ein weiterer wichtiger Vorteil von T-FREE liegt in der intelligenten Modellierung morphologischer Ähnlichkeiten zwischen Wörtern. Ähnlich wie bei Wörtern wie „Haus“, „Häuser“ und „häuslich“ im Alltag, kann T-FREE diese ähnlichen Wörter im Modell effizienter repräsentieren. Die Forscher argumentieren, dass ähnliche Wörter bei der Einbettung näher beieinander liegen sollten, um eine höhere Kompressionsrate zu erreichen. Daher reduziert T-FREE nicht nur das Volumen der Einbettungsschicht, sondern auch die durchschnittliche Codierungslänge des Texts um 56%.
Besonders hervorzuheben ist die überragende Leistung von T-FREE beim Transferlernen zwischen verschiedenen Sprachen. In einem Experiment trainierten die Forscher ein Modell mit 3 Milliarden Parametern zuerst auf Englisch und dann auf Deutsch. Dabei zeigte T-FREE eine deutlich bessere Anpassungsfähigkeit als herkömmliche Tokenizer-basierte Methoden.
Die Forscher bleiben jedoch bescheiden und geben zu, dass die bisherigen Experimente auf Modelle mit bis zu 3 Milliarden Parametern beschränkt waren. Weitere Evaluierungen an größeren Modellen und umfangreicheren Datensätzen sind geplant.