Im Bereich der generativen KI konzentriert sich Apples Bemühungen scheinbar hauptsächlich auf mobile Geräte, insbesondere das neueste iOS18-System. Die neue Apple M4-Chip-Architektur in den kürzlich vorgestellten Mac Mini und Macbook Pro Modellen zeigt jedoch eine beeindruckende Leistung und ermöglicht den effizienten Betrieb der aktuell leistungsstärksten Open-Source-Large Language Models (LLMs), wie Metas Llama-3.1405B, Nvidias Nemotron70B und Qwen2.5Coder-32B.
Exo Labs, ein im März 2024 gegründetes Startup mit dem Ziel, den „Zugang zu KI zu demokratisieren“, hat durch seinen Mitbegründer Alex Cheema bereits erfolgreich einen lokalen Rechencluster mit mehreren M4-Geräten aufgebaut.
Er verband vier Mac Mini M4 (je 599 US-Dollar) mit einem Macbook Pro M4 Max (1599 US-Dollar) und betrieb mit Exos Open-Source-Software Alibabas Qwen2.5Coder-32B. Die Gesamtkosten des Clusters belaufen sich auf etwa 5000 US-Dollar, was im Vergleich zu einer Nvidia H100-GPU im Wert von 25000 bis 30000 US-Dollar ein hervorragendes Preis-Leistungs-Verhältnis darstellt.
Die Vorteile eines lokalen Rechenclusters gegenüber Cloud-Diensten liegen auf der Hand. Durch den Betrieb von KI-Modellen auf benutzer- oder unternehmenseigenen Geräten lassen sich Kosten senken und gleichzeitig Datenschutz und Sicherheit verbessern. Cheema erklärt, dass Exo Labs seine Unternehmenssoftware kontinuierlich verbessert und bereits mehrere Unternehmen Exo-Software für lokales KI-Inferencing nutzen. Dieser Trend wird sich laut Cheema zukünftig auf Privatpersonen und Unternehmen ausweiten.
Der jüngste Erfolg von Exo Labs ist der leistungsstarken M4-Chip-Architektur zu verdanken, die als „weltweit schnellster GPU-Kern“ bezeichnet wird.
Cheema berichtet, dass der Mac Mini M4-Cluster von Exo Labs Qwen2.5Coder32B mit einer Geschwindigkeit von 18 Tokens pro Sekunde und Nemotron-70B mit 8 Tokens pro Sekunde verarbeiten kann. Dies zeigt, dass Benutzer KI-Trainings- und Inferencing-Aufgaben effizient bearbeiten können, ohne auf Cloud-Infrastrukturen angewiesen zu sein, wodurch KI für datenschutz- und kostensensible Verbraucher und Unternehmen zugänglicher wird.
Um diese Welle der lokalen KI-Innovation weiter zu unterstützen, plant Exo Labs die Einführung einer kostenlosen Benchmark-Website, die detaillierte Vergleiche von Hardwarekonfigurationen bietet und Benutzern hilft, die optimale LLM-Lösung für ihre Bedürfnisse und ihr Budget auszuwählen.
Projektseite:https://github.com/exo-explore/exo
Wichtigste Punkte:
🌟 Exo Labs nutzt Apple M4-Chips, um leistungsstarke Open-Source-KI-Modelle erfolgreich auf einem lokalen Rechencluster auszuführen.
💰 Der lokale Betrieb von KI-Modellen senkt die Kosten, verbessert Datenschutz und Sicherheit und vermeidet die Abhängigkeit von Cloud-Diensten.
📊 Exo Labs wird eine Benchmark-Website einführen, um Benutzern bei der Auswahl der geeigneten Hardwarekonfiguration für KI-Aufgaben zu helfen.