Das NASA-Team für interinstitutionelle Implementierung und fortschrittliche Konzepte (IMPACT) hat in Zusammenarbeit mit privaten und nicht-föderalen Partnern über Space Act Agreements INDUS entwickelt. INDUS ist ein großes Sprachmodell (LLM) für die Bereiche Erdwissenschaften, Bio- und Physikwissenschaften, Heliophysik, Planetenwissenschaften und Astrophysik. Es wurde mit kuratierter wissenschaftlicher Literatur aus verschiedenen Datenquellen trainiert.

image.png

INDUS umfasst zwei Modelltypen: Encoder und Sentence Transformer. Der Encoder wandelt natürlichsprachigen Text in numerische Codes um, die vom LLM verarbeitet werden können. Der INDUS-Encoder wurde mit einem 6-Milliarden-Token-Korpus trainiert, der Daten aus Astrophysik, Planetenwissenschaften, Erdwissenschaften, Heliophysik, Biowissenschaften und Physikwissenschaften enthält. Ein vom IMPACT-IBM-Kooperationsteam entwickelter benutzerdefinierter Tokenizer verbessert den generischen Tokenizer durch die Erkennung wissenschaftlicher Begriffe wie Biomarker und Phosphorylierung. Über die Hälfte der 50.000 Wörter in INDUS sind spezifisch für die wissenschaftlichen Bereiche, für die es trainiert wurde. Das INDUS-Encoder-Modell wurde mit etwa 268 Millionen Textpaaren feinabgestimmt, darunter Titel/Zusammenfassung und Frage/Antwort.

Durch die Bereitstellung domänenspezifischer Vokabeln erzielte das IMPACT-IBM-Team bei Benchmarks für biomedizinische Aufgaben, wissenschaftliche Frage-Antwort-Benchmarks und die Erkennung von Entitäten in den Erdwissenschaften bessere Ergebnisse als offene, nicht domänenspezifische LLMs. Durch die Gestaltung vielfältiger sprachlicher Aufgaben und die retrieval-augmented generation kann INDUS die Fragen von Forschern verarbeiten, relevante Dokumente abrufen und Antworten generieren. Für latenzempfindliche Anwendungen hat das Team kleinere und schnellere Versionen der Encoder- und Sentence-Transformer-Modelle entwickelt.

Validierungstests zeigten, dass INDUS in der Lage ist, relevante Passagen aus wissenschaftlicher Literatur abzurufen, um einen Testsatz mit etwa 400 Fragen der NASA zu beantworten. IBM-Forscher Bishwaranjan Bhattacharjee kommentierte den Gesamtansatz: „Wir haben durch die Kombination aus benutzerdefinierten Vokabeln, einem umfangreich trainierten Encoder-Modell und einer guten Trainingsstrategie hervorragende Ergebnisse erzielt. Für die kleineren, schnelleren Versionen haben wir die neuronale Architektursuche verwendet, um die Modellarchitektur zu erhalten, und das Training mit Knowledge Distillation unter Aufsicht größerer Modelle durchgeführt.“

Wichtigste Punkte:

- 🚀NASA und IBM entwickeln gemeinsam das große Sprachmodell INDUS für die Bereiche Erdwissenschaften, Bio- und Physikwissenschaften, Heliophysik, Planetenwissenschaften und Astrophysik.

- 🎓INDUS umfasst Encoder und Sentence Transformer, wurde mit einem benutzerdefinierten Tokenizer und einem 6-Milliarden-Token-Korpus trainiert und mit etwa 268 Millionen Textpaaren feinabgestimmt.

- 💡INDUS erzielt durch domänenspezifische Vokabeln und die Gestaltung vielfältiger sprachlicher Aufgaben und retrieval-augmented generation bessere Ergebnisse als offene, nicht domänenspezifische LLMs. Es kann die Fragen von Forschern verarbeiten, relevante Dokumente abrufen und Antworten generieren.