Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

PowerInfer, LLM Generativo: Inferência de modelos de aprendizado de máquina 11x mais rápida em uma única GPU

站长之家

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Dec 25, 2023

115

PowerInfer: Aceleração de Inferência de LLM

Os modelos de linguagem grandes generativos (LLMs) são conhecidos por seu excelente desempenho em diversas tarefas, incluindo processamento complexo de linguagem natural, escrita criativa, perguntas e respostas e geração de código. LLMs já rodam em sistemas locais de fácil uso, incluindo PCs domésticos com GPUs de consumo.

O PowerInfer, um motor de inferência híbrido GPU-CPU que aproveita esse conhecimento, pré-carrega neurônios "frios" (pouco usados) na CPU para cálculo e neurônios "quentes" (frequentemente usados) na GPU para acesso imediato. Avaliações demonstram que o PowerInfer é 11,69 vezes mais rápido que o sistema llama.cpp atual, mantendo a fidelidade do modelo.

Em resumo, o PowerInfer melhora significativamente a velocidade de inferência de LLMs, mostrando-se promissor para execução em desktops com recursos de GPU limitados.

modelo de aprendizado de máquina GPU velocidade de inferência

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Cerebras acelera expansão com seis novos data centers, aumentando a velocidade de inferência em dez vezes!

A Cerebras Systems anunciou recentemente a construção de seis novos data centers na América do Norte e na Europa para aumentar sua capacidade de inferência de inteligência artificial (IA). Essa iniciativa aumentará significativamente a capacidade de computação da empresa, apoiando o desenvolvimento de vários aplicativos de IA. De acordo com o plano, 85% da capacidade computacional estará concentrada nos EUA, com três instalações já em operação em Santa Clara, Stockton (Califórnia) e Dallas (Texas). Os próximos centros serão localizados em Minneapolis (previsto para o segundo trimestre de 2025), Oklahoma City e Montreal.

Mar 12, 2025

A Galaxy General lança o novo modelo de aprendizado de máquina de captura de corpo GraspVLA, abrindo uma nova era para robôs inteligentes

Recentemente, a Galaxy General Technology, em colaboração com o Instituto de Pesquisa de Inteligência Artificial de Pequim, a Universidade de Pequim e a Universidade de Hong Kong, lançou com grande destaque o modelo básico de captura de corpo do tipo end-to-end GraspVLA. O lançamento deste modelo representa um grande avanço na tecnologia de inteligência embodied, possuindo capacidades integradas de percepção, aprendizagem e interação ambiental. O processo de treinamento do GraspVLA inclui duas fases: pré-treinamento e pós-treinamento. A fase de pré-treinamento é baseada em bilhões de quadros de dados, garantindo a alta generalização do modelo em vários cenários e a capacidade de teste de zero-shot.

Jan 10, 2025

2.9k

Chegou! Open-Sora Plan v1.2 lançado com resolução e velocidade de inferência aprimoradas

O lançamento do Open-Sora Plan v1.2 representa um avanço significativo na capacidade da IA de compreender o mundo físico e gerar vídeos. A arquitetura de atenção 3D introduzida permite que a IA compreenda o mundo a partir de uma perspectiva tridimensional, melhorando significativamente sua capacidade de entender o ambiente físico. O recurso de geração de vídeo a partir de texto foi aprimorado, resultando em vídeos com maior clareza e coerência de conteúdo. A nova arquitetura resolveu os problemas de processamento espacial e temporal, proporcionando vídeos com melhor representação espacial e fluidez temporal. O aumento significativo na velocidade de inferência aprimora ainda mais o modelo.

Jul 25, 2024

5.4k

Apple lança modelo de aprendizado de máquina multimodal de código aberto "Ferret"

A Apple, em colaboração com a Universidade Cornell, lançou o modelo de aprendizado de máquina multimodal de código aberto Ferret. O Ferret é um sistema que pode referenciar e localizar regiões em qualquer lugar em uma imagem, com qualquer precisão e usando qualquer forma de região. O Ferret pode identificar elementos em uma imagem e respondê-los como parte de uma consulta. Este lançamento de código aberto demonstra o compromisso da Apple com pesquisas de IA impactantes. A Apple está disposta a colaborar de forma mais aberta em seu trabalho com IA.

Dec 25, 2023

990

Laboratório IPADS da SJTU lança a estrutura PowerInfer, aumentando a velocidade de inferência de modelos grandes em 11 vezes

O laboratório IPADS da Universidade Jiao Tong de Xangai lançou a estrutura PowerInfer, aumentando a velocidade de inferência de 80 GA100 em 11 vezes sem quantização. O PowerInfer pode executar LLMs de nível 30-40B sem problemas em hardware de consumo, como 24G 4090, e pode inferir LLMs de nível 70B em 2080Ti. Usando precisão FP16, o PowerInfer realiza inferência de alta velocidade em PCs por meio de computação híbrida, resolvendo gargalos na execução de modelos grandes. A tecnologia de ativação esparsa é uma das características do PowerInfer.

Dec 21, 2023

4.4k

Microsoft lança LLMLingua: 20 vezes menor, acelera a inferência de modelos

O 'Microsoft LLMLingua' é conhecido por sua taxa de compactação 20 vezes maior e pela aceleração da velocidade de inferência do modelo. 'LLMLingua é uma técnica de compactação grossa e fina desenvolvida pela equipe de pesquisa da Microsoft. 'Essa técnica visa resolver os problemas causados por prompts longos em modelos de linguagem grandes. 'Os resultados experimentais mostram que o LLMLingua atingiu um desempenho notável em vários cenários, com uma compactação de até 20 vezes.

Dec 14, 2023

1.0k

Equipe PyTorch aumenta a velocidade de inferência do Llama7B em 10 vezes

A equipe PyTorch, usando técnicas de otimização, conseguiu aumentar a velocidade de inferência do Llama7B em 10 vezes, atingindo 244,7 tok/s, com menos de 1000 linhas de código PyTorch nativo. As otimizações incluem o uso da função torch.compile do PyTorch 2.0, quantização de GPU, decodificação especulativa, paralelismo de tensor e quantização de peso em diferentes precisões, como int8 e int4. Combinando essas técnicas, incluindo...

Dec 5, 2023

980

Nvidia lança H200: desempenho de chip de IA aumenta em 90%, velocidade de inferência do Llama 2 dobra

'Jensen Huang lança o H200 à noite, com aumento de desempenho de 60% a 90%, compatível com o H100. ''O H200 é baseado na arquitetura Hopper, com 141 GB de memória de vídeo e largura de banda de 4,8 TB/s. ''A velocidade de inferência do Llama 2 aumenta em quase 100%, com resultados significativos no processamento de grandes modelos de linguagem. ''A Nvidia planeja um lançamento por ano, dobrando a produção do H100 em 2024 e lançando o B100. ''Empresas de IA em todo o mundo estocam produtos freneticamente, com o lançamento do H200 previsto para o segundo trimestre do próximo ano.'

Nov 14, 2023

670

SDXL lança versão simplificada SSD-1B com aumento de 60% na velocidade de inferência

O SDXL lançou o SSD-1B, uma versão simplificada do modelo de IA de geração de imagem a partir de texto. Com 50% de redução no tamanho e 60% de aumento na velocidade, o modelo é aplicável em diversas áreas como arte, educação, pesquisa e geração de conteúdo seguro. Suporta várias resoluções para atender às diferentes necessidades de imagens. O desenvolvimento do SDXL promete impulsionar os avanços no campo da geração de imagens a partir de texto.

Oct 27, 2023

1.1k

Equipe chinesa lança Medusa, framework simples que dobra a velocidade de inferência de LLMs

Uma equipe chinesa de pesquisadores das universidades de Princeton e UIUC lançou Medusa, um framework simples que aumenta a velocidade de inferência de modelos de linguagem grandes (LLMs) em aproximadamente duas vezes. Medusa é um framework simples para acelerar a inferência de LLMs, que utiliza a técnica de múltiplas cabeças de decodificação ao adicionar cabeças de decodificação extras. Durante o treinamento, Medusa ajusta finamente o modelo original e, durante a geração, combina várias previsões usando um mecanismo de atenção em árvore, selecionando o prefixo confiável mais longo entre os candidatos para decodificação.

Sep 13, 2023

1.8k