Forscher von Microsoft stellen in einem neuen Forschungsartikel eine innovative Methode zum Trainieren kleiner Sprachmodelle vor: die Verwendung von Kindergeschichten. Im Vergleich zum Training großer Sprachmodelle ist diese Methode deutlich schneller und die internen Abläufe sind leichter nachvollziehbar.
Die Studie zeigt, dass mit Kindergeschichten trainierte Mini-Sprachmodelle kohärente und grammatikalisch korrekte Geschichten erzählen können und dabei hervorragende Leistungen erzielen. Diese Methode trägt zum besseren Verständnis des Verhaltens von Sprachmodellen bei und eröffnet neue Forschungsansätze für das Training größerer Modelle.
Die Forscher vergleichen das Trainieren kleiner Sprachmodelle mit dem Sequenzieren des Genoms einer Fruchtfliege anstatt des menschlichen Genoms – eine effektive Methode, um die Funktionsweise von Sprachmodellen zu erforschen.