Apple hat kürzlich ein technisches Whitepaper veröffentlicht, das detailliert die Entwicklung der Modelle für die generativen KI-Funktionen der „Apple Intelligence“-Serie beschreibt. Diese Funktionen werden in den kommenden Monaten auf iOS, macOS und iPadOS eingeführt. In dem Paper geht Apple auf Bedenken hinsichtlich ethischer Fragen bei der Modellschulung ein und bekräftigt, dass keine privaten Benutzerdaten verwendet wurden, sondern öffentlich zugängliche und lizenzierte Daten.

KI, Künstliche Intelligenz, Roboter

Bildquelle: Das Bild wurde mit KI generiert, Lizenzgeber: Midjourney

Apple erklärt, dass der Vortrainingsdatensatz lizenzierte Daten von Verlagen, sorgfältig ausgewählte öffentliche Datensätze und öffentlich zugängliche Informationen umfasst, die von seinem Webcrawler Applebot gesammelt wurden. Apple betont die Bedeutung des Schutzes der Privatsphäre der Nutzer und erklärt, dass diese Daten keine privaten Benutzerinformationen enthalten.

Im Juli berichteten Medien, dass Apple einen Datensatz namens „The Pile“ verwendet habe, der Untertitel von Hunderttausenden von YouTube-Videos enthält, wobei viele Urheber nicht informiert oder um Erlaubnis gebeten wurden. Apple erklärte daraufhin, dass es nicht beabsichtigt, diese Modelle für die Bereitstellung von KI-Funktionen in seinen Produkten zu verwenden.

Das technische Whitepaper lüftet erstmals den Schleier über die auf der WWDC 2024 vorgestellten „Apple Foundation Models“ (AFM) und betont, dass die Trainingsdaten „verantwortungsvoll“ beschafft wurden. Die Trainingsdaten der AFM-Modelle stammen aus öffentlich zugänglichen Webdaten und einigen nicht näher genannten lizenzierten Daten von Verlagen. Berichten zufolge schloss Apple Ende 2023 mit mehreren Verlagen wie NBC und Condé Nast Verträge über mindestens 50 Millionen US-Dollar ab, um deren Nachrichtenarchive für das Modelltraining zu nutzen. Darüber hinaus wurden Open-Source-Codes von GitHub verwendet, darunter Codes in verschiedenen Programmiersprachen wie Swift, Python und C.

Die Verwendung von Open-Source-Code für das Modelltraining ist jedoch unter Entwicklern umstritten. Einige Open-Source-Code-Repositories verfügen nicht über Lizenzen oder erlauben keine Verwendung für KI-Training. Apple erklärt jedoch, dass es eine „Lizenzfilterung“ durchführt und nur Code-Repositories mit weniger restriktiven Nutzungsbestimmungen auswählt.

Um die mathematischen Fähigkeiten der AFM-Modelle zu verbessern, wurden dem Trainingsdatensatz gezielt mathematische Aufgaben und Lösungen aus Webseiten, Mathematikforen, Blogs, Tutorials und Workshops hinzugefügt. Darüber hinaus wurden „hochwertige, öffentlich zugängliche“ Datensätze verwendet, um das Modell durch Feinabstimmung zu optimieren und die Wahrscheinlichkeit unangemessenen Verhaltens zu minimieren.

Der zusammengestellte Datensatz umfasst etwa 6,3 Billionen Token, im Vergleich dazu verwendete Meta für das Training seines Flaggschiff-Textgenerierungsmodells Llama3.1405B 15 Billionen Token. Apple optimierte die AFM-Modelle zusätzlich durch menschliches Feedback und synthetische Daten, um sie besser an die Bedürfnisse der Benutzer anzupassen.

Das Whitepaper präsentiert zwar keine bahnbrechenden Erkenntnisse, dies ist jedoch auch beabsichtigt. Die meisten solchen Papers gehen nicht zu detailliert vor, um rechtliche Probleme zu vermeiden. Apple erwähnt, dass Webmaster das Crawling von Daten verhindern können, was jedoch für einzelne Urheber nicht sehr hilfreich ist. Der Schutz der eigenen Werke bleibt ein ungelöstes Problem.

Wichtigste Punkte:

🌟 Apple betont, dass bei der Modellschulung keine privaten Benutzerdaten verwendet wurden, sondern öffentlich zugängliche und lizenzierte Daten.   

📊 Die Trainingsdaten umfassen lizenzierte Inhalte von mehreren Verlagen und Open-Source-Code-Repositories.   

🔍 Apple bemüht sich, die Privatsphäre der Benutzer zu schützen und gleichzeitig die Leistung und Verantwortlichkeit der KI-Modelle zu verbessern.