Infini-attention

Erweiterung von Transformer-Modellen zur Verarbeitung beliebig langer Eingaben

Normales ProduktAndereTransformerGroßes Sprachmodell

Die von Google entwickelte „Infini-attention“-Technologie zielt darauf ab, große, auf Transformatoren basierende Sprachmodelle zu erweitern, um beliebig lange Eingaben zu verarbeiten. Dies wird durch einen Kompressionsmechanismus für das Gedächtnis erreicht, der eine Verarbeitung beliebig langer Eingaben ermöglicht und in mehreren Aufgaben mit langen Sequenzen hervorragende Ergebnisse erzielt. Die technischen Methoden umfassen einen Kompressionsmechanismus für das Gedächtnis, die Kombination aus lokaler und langfristiger Aufmerksamkeit und die Fähigkeit zur Stream-Verarbeitung. Die Ergebnisse zeigen Leistungsvorteile bei Aufgaben wie der Sprachmodellierung langer Kontexte, der Suche nach Schlüsselkontextblöcken und der Erstellung von Textzusammenfassungen.

Best AI Websites & Tools

Infini-attention

Infini-attention Neueste Verkehrssituation

Infini-attention Besuchstrend

Infini-attention Geografische Verteilung der Besuche

Infini-attention Traffic-Quellen

Infini-attention Alternativen

Infini-attention — Erweiterung von Transformer-Modellen zur Verarbeitung beliebig langer Eingaben

Llama-3.3-70B-Instruct — 70 Milliarden Parameter umfassendes multilinguales großes Sprachmodell

MindSearch — Open-Source-Framework für eine KI-Suchmaschine mit Leistung vergleichbar mit Perplexity.ai Pro.

SpaceByte — SpaceByte ist eine neue Byte-Ebene-Decodierungsarchitektur, die die Nachteile der Tokenisierung vermeidet.

NotaGen — NotaGen ist ein Modell zur Generierung von Notenmusik, das auf dem Trainingsparadigma großer Sprachmodelle basiert und sich auf die Generierung hochwertiger klassischer Noten konzentriert.

Spark-TTS — Spark-TTS ist ein effizientes, auf großen Sprachmodellen basierendes, einstromiges, entkoppeltes Sprachsynthesemodell.

QwQ-32B — QwQ-32B ist ein leistungsstarkes Inferenzmodell, das speziell für die Lösung komplexer Probleme und die Textgenerierung entwickelt wurde und sich durch hervorragende Leistung auszeichnet.

ART — Eine Technik für einen anonymen Bereichstransformator zur Erzeugung variabler, mehrlagiger transparenter Bilder.

TableGPT2-7B — TableGPT2-7B ist ein großes Sprachmodell, das sich auf die Verarbeitung von Tabellendaten konzentriert und für Aufgaben der Datenanalyse und Business Intelligence geeignet ist.

MoBA — MoBA ist ein hybrider Block-Aufmerksamkeitsmechanismus für lange Textkontexte, der die Effizienz von großen Sprachmodellen verbessern soll.

MakeAnything — MakeAnything ist ein Diffusions-Transformer-Modell für die programmatische Sequenzgenerierung in verschiedenen Bereichen.

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B ist ein mehrsprachiges, leistungsstarkes, anweisungen feinabgestimmtes großes Sprachmodell für diverse Anwendungsfälle.

Tülu 3 405B — Tülu 3 405B ist ein großes, quelloffenes Sprachmodell, dessen Leistung durch Reinforcement Learning verbessert wurde.

MNN Großmodell Android App — Eine voll funktionsfähige Android-Anwendung für ein großes Sprachmodell mit Multimodalitätsunterstützung.

Janus-Pro-1B — Janus-Pro-1B ist ein einheitliches, multimodales, autoregressives Framework für Verständnis und Generierung.

Baichuan-M1-14B — Von Baichuan Intelligence entwickeltes Open-Source-Sprachmodell, speziell optimiert für den medizinischen Bereich, mit herausragenden allgemeinen Fähigkeiten und Leistung im medizinischen Sektor.

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B ist ein großes Sprachmodell, das mit verstärktem Lernen optimiert wurde und sich auf Schlussfolgerungen und Dialogfähigkeit konzentriert.

PaSa — PaSa ist ein fortschrittlicher, von einem großen Sprachmodell angetriebener Such-Agent für wissenschaftliche Arbeiten, der eigenständig Entscheidungen treffen und präzise Ergebnisse liefern kann.

InternVL2.5-78B-MPO — Dies ist eine Serie fortschrittlicher multimodaler großer Sprachmodelle, die eine herausragende Gesamtleistung aufweisen.

InternLM3-8B-Instruct — InternLM3-8B-Instruct ist ein quelloffenes, 8 Milliarden Parameter umfassendes instruktionsbasiertes Sprachmodell für allgemeine Zwecke und anspruchsvolle Schlussfolgerungen.

MinMo — MinMo ist ein multimodaler großes Sprachmodell für nahtlose Sprachinteraktion.

Dria-Agent-a-3B — Basierend auf dem großen Sprachmodell Qwen2.5-Coder, spezialisiert auf Agentenanwendungen.

Dria-Agent-a-7B — Ein großes Sprachmodell, basierend auf der Qwen2.5-Coder-Serie, spezialisiert auf Agentenanwendungen.

Dria-Agent-α — Dria-Agent-α ist ein interaktives Framework für große Sprachmodelle (LLMs) basierend auf Python.

ViTPose — Sammlung von ViTPose-Modellen, basierend auf der Transformer-Architektur

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF — Quantisiertes, großes Sprachmodell basierend auf einem spezifischen Modell, geeignet für Aufgaben der natürlichen Sprachverarbeitung.

InternVL2.5-38B-MPO — Die InternVL2.5-MPO-Modellreihe basiert auf InternVL2.5 und der Mixed Preference Optimization (MPO) und bietet herausragende Leistung.

Agent Laboratory — Agent Laboratory ist ein End-to-End-Workflow für die autonome Forschung, der Wissenschaftler bei der Umsetzung ihrer Forschungsideen unterstützen soll.

InternVL2_5-26B-MPO-AWQ — Ein fortschrittliches, multimodal großes Sprachmodell mit herausragender multimodaler Inferenzfähigkeit.

AnyParser Pro — AnyParser Pro ist ein großes Sprachmodell, das schnell und präzise Inhalte aus PDF-, PPT- und Bilddateien extrahiert.