In der heutigen digitalen Welt ist die Verwendung von Kurztexten zum Kern der Online-Kommunikation geworden. Da diesen Texten oft gemeinsame Vokabeln oder ein gemeinsamer Kontext fehlen, stehen Künstliche Intelligenzen (KI) bei der Analyse jedoch vor großen Herausforderungen. Ein Doktorand der englischen Literatur und Datenwissenschaftler der Universität Sydney, Justin Miller, hat eine neue Methode entwickelt, die große Sprachmodelle (LLMs) nutzt, um Kurztexte tiefgehend zu verstehen und zu analysieren.

Millers Forschung konzentriert sich darauf, wie große Mengen an Kurztexten, wie Social-Media-Profile, Kundenfeedback oder Online-Kommentare zu Katastrophenereignissen, effektiv kategorisiert werden können. Sein entwickeltes KI-Tool kann zehntausende Twitter-Benutzerprofile in zehn leicht verständliche Kategorien gruppieren. Dieser Prozess analysierte im September 2020 innerhalb von zwei Tagen fast 40.000 Twitter-Profile zum Thema US-Präsident Trump. Diese Kategorisierung kann nicht nur berufliche Neigungen, politische Standpunkte, sondern sogar die verwendeten Emojis der Nutzer identifizieren.

Twitter (3)

„Das Besondere an dieser Forschung ist ihr menschenzentriertes Design“, sagt Miller. Die mit großen Sprachmodellen erstellten Kategorien sind nicht nur rechnerisch effizient, sondern auch mit dem menschlichen intuitiven Verständnis vereinbar. Seine Forschung zeigt auch, dass generative KIs wie ChatGPT in einigen Fällen klarere und konsistentere Kategorienamen liefern als menschliche Prüfer, insbesondere beim Herausfiltern sinnvoller Muster aus Hintergrundrauschen.

Millers Tool bietet vielversprechende Anwendungsmöglichkeiten. Seine Forschung zeigt, dass riesige Datensätze auf überschaubare, sinnvolle Gruppen reduziert werden können. In einem Projekt zum Ukraine-Krieg gruppierte er beispielsweise über 1 Million Social-Media-Posts und identifizierte zehn verschiedene Themen, darunter russische Desinformationskampagnen und die symbolische Verwendung von Tieren in humanitärer Hilfe. Durch diese Gruppierungen können Organisationen, Regierungen und Unternehmen handlungsrelevante Erkenntnisse gewinnen und fundiertere Entscheidungen treffen.

Miller fasst zusammen: „Diese dual nutzbare KI-Anwendung reduziert nicht nur die Abhängigkeit von teuren und subjektiven menschlichen Prüfungen, sondern bietet uns auch eine skalierbare Methode zum Verständnis großer Textdatenmengen. Von der Analyse von Social-Media-Trends über die Krisenüberwachung bis hin zu Kunden-Insights – diese Methode verbindet effektiv die Effizienz der Maschine mit dem Verständnis des Menschen und bietet neue Wege zur Organisation und Interpretation von Daten.“