NVIDIA-AI-Forscher präsentieren FFN-Fusionstechnologie: Beschleunigung der Inferenz großer Sprachmodelle

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 6 Minuten Lesezeit · Mar 31, 2025

Forscher von Nvidia, dem Branchenriesen für KI-Chips, haben kürzlich eine innovative Architektur-Optimierungstechnik namens „FFN Fusion“ vorgestellt. Diese Technik zielt darauf ab, den inhärenten Flaschenhals serieller Berechnungen in der Transformer-Architektur zu beheben und so die Inferenz-Effizienz großer Sprachmodelle (LLMs) deutlich zu verbessern. Dies ebnet den Weg für einen breiteren Einsatz leistungsstarker KI-Anwendungen.

In den letzten Jahren haben große Sprachmodelle in Bereichen wie der Verarbeitung natürlicher Sprache, der wissenschaftlichen Forschung und der Entwicklung von Dialogagenten beeindruckende Fähigkeiten gezeigt. Mit zunehmender Größe und Komplexität der Modelle steigt jedoch auch der Bedarf an Rechenressourcen für den Inferenzprozess erheblich, was zu Effizienzproblemen führt. Die Transformer-Architektur bildet die Grundlage von LLMs. Ihr abwechselnder Mechanismus der Aufmerksamkeit und die Feedforward-Netzwerk-(FFN-)Schichten erfordern die sequentielle Verarbeitung der Eingaben. Diese inhärente serielle Struktur führt bei größeren Modellen zu deutlich höheren Rechen- und Kommunikationskosten zwischen GPU und Prozessor, was die Effizienz mindert und die Bereitstellungskosten erhöht. Dies ist besonders in Szenarien mit schneller Generierung mehrerer Tokens (z. B. bei Echtzeit-KI-Assistenten) ein Problem.

Um dieser Herausforderung zu begegnen, haben die Nvidia-Forscher die FFN-Fusion-Technik entwickelt. Die Kernidee besteht darin, aufeinanderfolgende, schwach voneinander abhängige FFN-Schichten zu einem breiteren FFN zusammenzufassen. Die Forscher stellten fest, dass nach dem Entfernen der Aufmerksamkeitsschichten oft lange Sequenzen aufeinanderfolgender FFN-Schichten in LLMs vorhanden sind. Durch die Analyse dieser Sequenzen entdeckten sie, dass die Abhängigkeit zwischen diesen FFN-Schichten gering ist und sie daher parallel ausgeführt werden können.

Die mathematische Grundlage der FFN-Fusion besteht darin, die Gewichte mehrerer seriell verknüpfter FFNs zu verketten und so ein äquivalentes, parallel berechenbares Einzelmodul zu erstellen. Wenn beispielsweise drei FFNs sequentiell gestapelt sind, wobei die Ausgabe jedes FFNs als Eingabe für das nächste dient, eliminiert die FFN-Fusion diese Abhängigkeit, sodass die drei FFNs dieselbe Eingabe gleichzeitig verarbeiten und ihre Ausgaben aggregieren können. Theoretische Analysen zeigen, dass das fusionierte FFN dieselbe Repräsentationsfähigkeit wie das ursprüngliche FFN beibehält.

Ultra-253B-Base: Verbesserte Leistung und Effizienz

Die Nvidia-Forscher wandten die FFN-Fusion-Technik auf das Llama-3.1-405B-Instruct-Modell von Meta an und erstellten durch Pruning und Rekonstruktion ein neues Modell namens Ultra-253B-Base. Die Ergebnisse zeigen eine deutliche Verbesserung der Inferenzgeschwindigkeit und Ressourceneffizienz. Konkret wurde bei einer Batch-Größe von 32 die Inferenzverzögerung um das 1,71-fache reduziert und die Rechenkosten pro Token um das 35-fache gesenkt.

Besonders beeindruckend ist, dass die Effizienzsteigerung nicht auf Kosten der Modellleistung ging. Ultra-253B-Base erzielte in mehreren etablierten Benchmark-Tests hervorragende Ergebnisse, z. B.: MMLU 85,17 %, MMLU-Pro 72,25 %, HumanEval 86,58 %, Arena Hard 84,92 %, MT-Bench 9,19 %. Diese Ergebnisse sind oft vergleichbar oder sogar besser als die des ursprünglichen 405-Milliarden-Parameter-Modells, obwohl Ultra-253B-Base nur 253 Milliarden Parameter enthält. Darüber hinaus wurde der Speicherverbrauch dank Optimierung des kv-Cache halbiert.

Die Forscher verwendeten die Kosinusähnlichkeit, um die Ausgabe zwischen FFN-Schichten zu analysieren und schwach voneinander abhängige Bereiche zu identifizieren, die sich am besten für die Fusion eignen. Die FFN-Fusion-Technik wurde an Modellen unterschiedlicher Größe (einschließlich 49, 70 und 253 Milliarden Parametern) getestet und zeigt eine gute Generalisierbarkeit.

Diese Studie zeigt, dass durch gründliche Analyse und geschicktes Architekturdesign die Effizienz von LLMs deutlich verbessert werden kann. FFN-Fusion legt den Grundstein für die Entwicklung parallelerer, hardware-angepasster LLMs. Obwohl die Parallelisierung vollständiger Transformer-Module aufgrund stärkerer Abhängigkeiten zwischen den Schichten größere Herausforderungen mit sich bringt, weist der Erfolg der FFN-Fusion zweifellos einen wichtigen Weg für die zukünftige Effizienzoptimierung von LLMs.

Artikel:https://arxiv.org/abs/2503.18908

FFN-Fusion Transformer-Architektur GroßesSprachmodell(LLM)Englisch

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

CogView4: Open-Source KI-basiertes Text-zu-Bild-Modell mit Unterstützung für chinesische und englische Eingabeaufforderungen

Das neueste Open-Source Text-zu-Bild-Modell von Zhihu AI, CogView4, ist erschienen. CogView4 verfügt nicht nur über 600 Millionen Parameter, sondern unterstützt auch vollständig die chinesische Eingabe und die Generierung von Bildern aus chinesischen Texten. Es wird als erstes Open-Source-Modell bezeichnet, das chinesische Schriftzeichen in Bildern generieren kann. Das Kernmerkmal von CogView4 ist die Unterstützung von chinesischen und englischen Eingabeaufforderungen. Es ist besonders gut darin, komplexe chinesische Anweisungen zu verstehen und zu befolgen, was es zu einer Bereicherung für chinesische Content-Ersteller macht. Als erstes Open-Source-Text-zu-Bild-Modell, das chinesische Schriftzeichen in Bildern generieren kann, füllt es eine bedeutende Lücke im Open-Source-Bereich.

Mar 4, 2025

Absolvent der englischen Literatur entwickelt KI-Tool zur einfachen Interpretation von Twitter-Profilen

In der heutigen digitalen Welt ist die Verwendung kurzer Texte zum Kern der Online-Kommunikation geworden. Da diesen Texten oft gemeinsame Vokabeln oder ein gemeinsamer Kontext fehlen, stellen sie jedoch eine Herausforderung für die Analyse durch Künstliche Intelligenz (KI) dar. Ein Absolvent der englischen Literatur und Datenwissenschaftler der Universität Sydney, Justin Miller, hat einen neuen Ansatz entwickelt, der große Sprachmodelle (LLMs) nutzt, um kurze Texte tiefgehend zu verstehen und zu analysieren. Millers Forschung konzentriert sich darauf, wie große Mengen kurzer Texte, wie z. B. Social-Media-Profile,...

Jan 22, 2025

1.2k

Wie heißen AIGC und AGI auf Chinesisch? Veröffentlichung einer chinesisch-englischen Vergleichstabelle für KI-Begriffe

Das Bildungsministerium gab kürzlich bekannt, dass der Expertenausschuss des zwischenministeriellen Lenkungsausschusses für die Normung der chinesischen Transkription von Fremdwörtern 18 neue Empfehlungen für die Übersetzung von Fremdwörtern in die chinesische Sprache genehmigt hat. Diese Übersetzungen betreffen hauptsächlich die Bereiche Künstliche Intelligenz und Informationstechnologie. Ziel ist es, die oft verwendeten neuen Fachbegriffe im KI-Bereich zu standardisieren und der Öffentlichkeit klare offizielle Erklärungen zu liefern, um Verwirrung zu vermeiden.

Dec 11, 2024

2.2k

Teuken-7B Sprachmodell veröffentlicht: Durchbruch für nicht-englische Sprachen, unterstützt 24 EU-Amtssprachen

Teuken-7B, ein Sprachmodell mit 7 Milliarden Parametern, ist jetzt auf Hugging Face verfügbar und unterstützt alle 24 Amtssprachen der Europäischen Union. Das Modell wurde im Rahmen des EU-Forschungsprojekts OpenGPT-X entwickelt und steht als Open-Source-Projekt zur Verfügung. Im Gegensatz zu den meisten auf Englisch ausgerichteten KI-Sprachmodellen wurde Teuken-7B von Grund auf neu aufgebaut, wobei etwa die Hälfte der Trainingsdaten aus nicht-englischen europäischen Sprachen stammt. Bildquelle: KI-generiertes Bild, Bildrechte vorbehalten.

Nov 29, 2024

1.4k

ChatGPTs verborgene kulturelle Voreingenommenheit: Bevorzugung englischsprachiger und protestantischer Länder

Eine neue Studie hat kürzlich Aufmerksamkeit erregt, die zeigt, dass die Antworten von ChatGPT die kulturellen Werte englischsprachiger und protestantischer Länder widerspiegeln. Der Kern der Studie ist, dass große Sprachmodelle wie ChatGPT während ihres Trainings große Datenmengen aus bestimmten Ländern und Kulturen verwenden, was dazu führen kann, dass die Ausgaben dieser Modelle kulturelle Voreingenommenheiten aufweisen. Das Forschungsteam, bestehend aus René F Kizilcec und seinen Kollegen, ließ fünf verschiedene Versionen von OpenAI GPT...

Sep 18, 2024

2.9k

EasyVideoTrans: Der ultimative Übersetzer für Ihre englischen Videos – blitzschnell und flexibel anpassbar

Im Zeitalter der Globalisierung steigt der Bedarf an sprachübergreifender Kommunikation stetig, insbesondere bei der Verbreitung von Videomaterial weltweit. EasyVideoTrans wurde entwickelt, um dieser Nachfrage gerecht zu werden. Es handelt sich um ein professionelles und fortschrittliches Video-Konvertierungswerkzeug, das mithilfe der GPU-Beschleunigungstechnologie von Computergrafikkarten eine schnelle und effiziente Videokonvertierung ermöglicht. Dank der einzigartigen GPU-Beschleunigung werden Aufgaben, die früher Stunden oder sogar Tage gedauert haben, jetzt in wenigen Minuten erledigt. Dies steigert die Effizienz bei der Übersetzung und Korrektur erheblich. Das Tool bietet zahlreiche erweiterte Funktionen,

Jul 19, 2024

2.2k

Alipay präsentiert medizinisches großes Sprachmodell – übertrifft GPT-4 in chinesischen und englischen Tests

Alipay hat ein medizinisches großes Sprachmodell vorgestellt, das in medizinischen Prüfungen und Benchmarks GPT-4 übertrifft und in der chinesischen LLM-Bewertung den ersten Platz in der Liste A und den zweiten Platz in der Liste B belegt. Seine Genauigkeit bei der Erkennung von Berichten, Medikamenten und Haar-Bildern liegt bei über 90%, und es wird bereits in mehreren Krankenhäusern eingesetzt. Das Modell kombiniert native Multimodalität (Sehen, Hören, Sprechen, Zeichnen), basiert auf dem Bailing-Sprachmodell, verarbeitet verschiedene Datentypen und wurde mit Krankenhaus-bezogenen Annotationen versehen, um die Sicherheits- und Professionalitätsanforderungen im medizinischen Bereich zu erfüllen. Es ist bereits in medizinische Krankenhausabläufe integriert und bietet intelligente Frage-Antwort-Funktionen und strukturierte Patientenberichte.

Jul 9, 2024

2.5k

Ling Yi Wanwu veröffentlicht neues KI-Modell Yi-9B, optimiert für chinesisch-englische Szenarien

Ling Yi Wanwu veröffentlicht das neue KI-Modell Yi-9B mit 8,8 Milliarden Parametern und einer standardmäßigen Kontextlänge von 4.000 Tokens. Yi-9B zeichnet sich durch hervorragende Leistung in der Code-Erstellung und der Lösung mathematischer Probleme aus und eignet sich daher besonders für technische und wissenschaftliche Anwendungen. Yi-9B zeigt auch eine hohe Genauigkeit und Flexibilität beim Textverständnis, bei Aufgaben der Common-Sense-Inferenz und beim Lesen mit Verständnis. Yi-9B wurde für Chinesisch und Englisch optimiert und kann zweisprachige Texte effektiv verarbeiten und verstehen. Durch den Einsatz von Quantisierungstechniken kann Yi-9B auf...

Mar 7, 2024

460

MeloTTS: Hochwertiges Sprachsynthese-Tool von MyShell AI mit Unterstützung für chinesisch-englische Mischsprache

MeloTTS ist eine mehrsprachige Text-to-Speech-Bibliothek, die verschiedene Sprachen unterstützt. Die Bibliothek unterstützt die chinesisch-englische Mischsprache und erzeugt eine klare, natürliche Sprachausgabe. MeloTTS eignet sich für die Echtzeit-Sprachsynthese auf einer normalen CPU. Unterstützung für mehrere Sprachen, einschließlich chinesisch-englischer Mischsprache. Hochwertige Text-to-Speech-Konvertierung durch die Verwendung von Open-Source-Projekten.

Feb 27, 2024

1.7k

Neues KI-Framework AboutMe: Messung der Auswirkungen von Datenfiltern für englische Vortrainierungsdaten mithilfe von Selbstbeschreibungen auf Webseiten

Forscher stellen einen neuen Datensatz und ein Framework namens AboutMe vor, um die Auswirkungen von Datenfiltern auf Texte zu erfassen. Durch die Analyse der "Über mich"-Abschnitte von Webseiten misst das Forschungsteam Informationen wie die Interessen, sozialen Rollen und den geografischen Standort der Webseitenautoren. Die Studie hebt die Komplexität des Filterprozesses für Vortrainierungsdaten hervor und fordert weitere Forschung zu den gesellschaftlichen Auswirkungen.

Jan 19, 2024

480

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick