MInference

Acelera o processo de inferência de modelos de linguagem de grande porte com contexto longo.

Novo Produto PremiumProgramaçãoModelos de Linguagem de Grande PorteAceleração de Inferência

MInference é uma estrutura de aceleração de inferência para modelos de linguagem de grande porte (LLMs) com contexto longo. Ela aproveita as características de esparsidade dinâmica nos mecanismos de atenção dos LLMs, por meio de reconhecimento de padrões estáticos e aproximação de indexação esparsa online, melhorando significativamente a velocidade de pré-preenchimento (pre-filling). Isso resulta em uma aceleração de 10 vezes no processamento de 1M de contexto em uma única GPU A100, mantendo a precisão da inferência.

Best AI Websites & Tools

MInference

MInference Situação do Tráfego Mais Recente

MInference Tendência de Visitas

MInference Distribuição Geográfica das Visitas

MInference Fontes de Tráfego

MInference Alternativas

MInference — Acelera o processo de inferência de modelos de linguagem de grande porte com contexto longo.

MoBA — MoBA é um mecanismo de atenção em blocos híbrido para contextos de texto longo, projetado para melhorar a eficiência de modelos de linguagem de grande porte.

Sonus-1 — Sonus-1: Inaugurando uma nova era para modelos de linguagem de grande porte (LLMs)

ExploreToM — Estrutura para geração em larga escala de dados de Teoria da Mente diversos e desafiadores.

FastVideo — Framework de código aberto que acelera modelos de difusão de vídeo em larga escala.

CosyVoice 2 — Tecnologia de síntese de voz em streaming expansível, combinada com modelos de linguagem de grande porte.

Star-Attention — Técnica de inferência eficiente para modelos de linguagem grandes e sequências longas

awesome-LLM-resourses — Agregação de recursos globais de modelos de linguagem de grande porte (LLM)

AutoDAN-Turbo — Estrutura de automação que supera as limitações dos modelos de linguagem de grande porte

Lumigator — Assistente de seleção de modelos de IA

LongLLaVA — Modelo de linguagem de grande porte multimodal eficientemente escalável para 1000 imagens

ChatMLX — Aplicativo de bate-papo para MacOS de alto desempenho baseado em modelos de linguagem de grande porte.

Seed-ASR — Tecnologia de reconhecimento de voz baseada em modelos de linguagem de grande porte.

DCLM — Framework abrangente para construir e treinar modelos de linguagem de grande porte

AsyncDiff — Solução assíncrona de denoising e paralelismo para modelos de difusão

june — Robô de bate-papo por voz local, que protege a privacidade e não requer conexão com a internet.

agentUniverse — Framework de desenvolvimento de aplicativos multiagentes baseado em modelos de linguagem de grande porte

Tabela de Modelos — Lista detalhada e informações sobre modelos de linguagem de grande porte

EasyEdit — Estrutura de edição de conhecimento de modelos de linguagem em larga escala de fácil utilização

SpaceByte — SpaceByte é uma nova arquitetura de decodificação em nível de byte que evita as deficiências da tokenização.

Phi-3-mini-4k-instruct-onnx — Modelo ONNX quantizado Phi-3 Mini, suporta aceleração de inferência em várias plataformas de hardware.

Langtail — Simplifica a gestão de prompts de LLM e promove a colaboração em equipe.

BiTA — Método de ajuste bidirecional para modelos de linguagem grandes

VideoDrafter — Geração de vídeos multi-cena com conteúdo consistente

GenSim — Geração de tarefas de simulação de robôs usando modelos de linguagem de grande porte

GradientJ — Construção rápida de aplicativos de processamento de linguagem natural

Guia de Engenharia de Prompts — Guia de engenharia de prompts para modelos de linguagem de grande porte.

Brainglue — Brainglue é uma plataforma experimental divertida para modelos de linguagem de grande porte.