Kürzlich verglichen Forscher der Stanford University und anderer Institutionen die von GPT-4 auf Basis von Tausenden von Artikeln aus Top-Konferenzen wie Nature und ICLR generierten Gutachten mit denen menschlicher Gutachter. Die Ergebnisse zeigen eine Übereinstimmung von über 50% zwischen GPT-4 und menschlichen Gutachten, wobei 82% der Autoren diese als hilfreich empfanden. Die Studie ergab außerdem, dass GPT-4 im Gegensatz zu menschlichen Gutachtern den Impact Factor stärker gewichtet und weniger Wert auf Details wie zusätzliche Ablationsexperimente legt. Die Nutzer waren sich weitgehend einig, dass das von GPT-4 generierte Feedback die Genauigkeit der Begutachtung verbessert und die Personalkosten senkt. Die Studie zeigt, dass die Unterstützung der wissenschaftlichen Begutachtung durch LLMs machbar ist.