Im heutigen Zeitalter der Informationsflut, insbesondere in der wissenschaftlichen Forschung, ist die Entstehung von gefälschten wissenschaftlichen Arbeiten kaum zu verhindern.

Kürzlich entwickelte Ahmed Abdeen Hamed, ein Forscher der Binghamton University im Bundesstaat New York, einen Machine-Learning-Algorithmus namens xFakeSci, der gefälschte wissenschaftliche Publikationen mit einer Genauigkeit von bis zu 94 % erkennen kann.

Hamed erklärte, dass sein Hauptforschungsgebiet die biomedizinische Informatik sei und während der Pandemie die Zahl gefälschter wissenschaftlicher Artikel sprunghaft angestiegen sei.

Er und sein Team führten zahlreiche Experimente durch, erstellten 50 gefälschte Artikel zu den drei wichtigen medizinischen Themen Alzheimer, Krebs und Depression und verglichen sie mit echten Artikeln zum gleichen Thema. Ziel war es, Unterschiede und Muster zu identifizieren.

Während seiner Forschung extrahierte Hamed mithilfe der PubMed-Datenbank des National Institutes of Health relevante Literatur und verwendete die gleichen Keywords, um ChatGPT zur Generierung von Artikeln aufzufordern. Seine Intuition sagte ihm, dass es bestimmte Muster zwischen gefälschten und echten Artikeln geben müsse.

image.png

Knoten-zu-Kanten-Verhältnis verschiedener Datensätze: ChatGPT vs. wissenschaftliche Artikel.

Nach eingehender Analyse konzentriert sich der xFakeSci-Algorithmus hauptsächlich auf zwei Merkmale: Erstens die Bigrams (Wortpaare) in den Artikeln, z. B. „Klimawandel“, „klinische Studie“, und zweitens die Beziehung dieser Wortpaare zu anderen Wörtern und Konzepten.

Er stellte fest, dass gefälschte Artikel deutlich weniger Bigrams enthielten als echte Artikel, obwohl diese in den gefälschten Artikeln eng mit anderen Inhalten verknüpft waren.

Er wies darauf hin, dass KI-generierte Artikel in erster Linie darauf abzielen, den Leser zu überzeugen, während das Ziel menschlicher Forscher darin besteht, die Ergebnisse und Methoden ihrer Experimente wahrheitsgetreu zu berichten.

Zukünftig plant Hamed, den xFakeSci-Algorithmus auf weitere Bereiche auszuweiten, darunter Ingenieurwesen, Naturwissenschaften und Geisteswissenschaften, um zu überprüfen, ob die Merkmale gefälschter Artikel konsistent sind. Er betonte, dass mit dem Fortschritt der KI-Technologie die Unterscheidung zwischen echten und gefälschten Artikeln immer schwieriger wird. Daher sei die Entwicklung einer umfassenden Lösung besonders wichtig.

Obwohl der aktuelle Algorithmus 94 % der gefälschten Artikel erkennen kann, könnten dennoch 6 % der gefälschten Artikel unentdeckt bleiben. Bescheiden bemerkte er, dass trotz der wichtigen Fortschritte weitere Anstrengungen unternommen werden müssen, um die Erkennungsrate zu verbessern und die Öffentlichkeit zu sensibilisieren.

Link zur Studie:https://www.nature.com/articles/s41598-024-66784-6

Wichtigste Punkte:

📄 ** Das neue Tool xFakeSci kann gefälschte wissenschaftliche Artikel mit einer Genauigkeit von bis zu 94 % erkennen und trägt so zum Schutz der wissenschaftlichen Forschung bei.**

🧪 ** Forscher erstellten zahlreiche gefälschte Artikel und verglichen sie mit echten Artikeln. Dabei wurden signifikante Unterschiede im Schreibstil festgestellt.**

🔍 ** Der Anwendungsbereich des Algorithmus soll erweitert werden, um den Herausforderungen durch die immer komplexer werdenden KI-generierten Artikel zu begegnen.**