Explosivo! DeepSeek-V3-0324 lançado silenciosamente - Uso comercial gratuito, funciona até em computadores domésticos!

AIbase基地

Publicado emNotícias e Informações de IA · 10 minutos de leitura · Mar 25, 2025

A DeepSeek lançou silenciosamente seu mais recente modelo de linguagem grande, o DeepSeek-V3-0324, causando grande impacto na indústria de inteligência artificial. Este modelo, com capacidade impressionante de 641 GB, apareceu discretamente no repositório de modelos de IA Hugging Face, quase sem nenhum anúncio prévio, mantendo o estilo de lançamento discreto, porém altamente influente, da empresa.

Salto de desempenho, comparável ao Claude Sonnet3.5

O lançamento do DeepSeek-V3 é notável não apenas por sua poderosa funcionalidade, mas também por sua forma de implantação e licença. Testadores iniciais relataram enormes avanços em vários indicadores.

O pesquisador de IA Xeophon, na plataforma X, afirmou que o DeepSeek V3 em seus testes internos "apresentou um salto enorme em todos os indicadores de todos os testes", e alegou que agora é o "melhor modelo sem inferência, substituindo o Sonnet3.5". Se essa afirmação for amplamente verificada, o novo modelo da DeepSeek superará o respeitado sistema de IA comercial Claude Sonnet3.5 da Anthropic.

Open source e comercial, beneficiando a todos: quebrando barreiras de pagamento

Diferentemente do Sonnet, que requer assinatura para uso, os pesos do modelo DeepSeek-V3-0324 são totalmente gratuitos, e qualquer pessoa pode baixá-los e usá-los.

Mais importante ainda, o modelo utiliza a licença MIT, o que significa que ele pode ser livremente usado para fins comerciais. Essa postura aberta contrasta fortemente com a prática comum de empresas ocidentais de IA de colocar seus modelos atrás de um paywall.

Arquitetura MoE e duas grandes inovações

A arquitetura inovadora do DeepSeek V3-0324 permite uma eficiência incomparável. O modelo utiliza a arquitetura de especialista misto (MoE), mudando fundamentalmente a forma como os modelos de linguagem grandes funcionam. Ao contrário dos modelos tradicionais que ativam todos os parâmetros em cada tarefa, o método da DeepSeek ativa apenas cerca de 37 bilhões de seus 685 bilhões de parâmetros em tarefas específicas. Essa ativação seletiva representa uma grande mudança na eficiência do modelo, permitindo um desempenho comparável a modelos maiores totalmente ativados, enquanto reduz significativamente as necessidades computacionais.

Além disso, o modelo incorpora duas tecnologias inovadoras adicionais: atenção latente multi-cabeça (MLA) e previsão multi-token (MTP). A MLA aprimora a capacidade do modelo de manter o contexto em textos longos, enquanto a MTP pode gerar vários tokens a cada passo, em vez do usual um token por vez. Essas inovações juntas aumentam a velocidade de saída em quase 80%.

Compatível com hardware, execução local: acessível até mesmo em dispositivos de consumo

O criador de ferramentas para desenvolvedores Simon Willison, em um post de blog, apontou que uma versão quantizada de 4 bits reduz o uso de armazenamento para 352 GB, tornando possível a execução em hardware de consumo de alta qualidade (como o Mac Studio com chip M3 Ultra).

O pesquisador de IA Awni Hannun escreveu nas redes sociais: "O novo DeepSeek-V3-0324 roda a >20 tokens/segundo em um M3 Ultra de 512 GB com mlx-lm!". Embora o Mac Studio de US$ 9.499 possa estar além da definição de "hardware de consumo", a execução local de um modelo tão grande contrasta fortemente com a IA mais recente que normalmente requer infraestrutura de IA em nível de data center.

O Mac Studio consome menos de 200 watts durante o processo de inferência, enquanto a infraestrutura tradicional de IA geralmente depende de vários GPUs Nvidia que consomem milhares de watts de potência.

Mudança de estilo, foco maior na tecnologia

Usuários iniciais relataram uma mudança notável no estilo de comunicação do novo modelo. Modelos DeepSeek anteriores eram elogiados por seu tom conversacional e semelhante ao humano, enquanto o "V3-0324" apresenta um estilo mais formal e focado na tecnologia.

Alguns usuários no Reddit expressaram essa mudança, considerando que a nova versão soa "menos humana", perdendo o "tom humano" das versões anteriores. Essa mudança pode refletir uma escolha de design consciente dos engenheiros da DeepSeek, com o objetivo de reposicionar o modelo para aplicações mais profissionais e técnicas.

A estratégia de lançamento da DeepSeek reflete as diferenças fundamentais nas filosofias de negócios de IA entre empresas chinesas e ocidentais. Líderes americanos como OpenAI e Anthropic colocam seus modelos atrás de paywalls, enquanto empresas chinesas de IA estão cada vez mais optando por licenças open source mais flexíveis.

Essa abertura está mudando rapidamente o ecossistema de IA da China, permitindo que startups, pesquisadores e desenvolvedores inovarm com base em tecnologias de IA avançadas sem grandes investimentos de capital. Gigantes tecnológicos chineses, incluindo Baidu, Alibaba e Tencent, também estão lançando ou planejando lançar modelos de IA open source. Com a limitação no acesso a chips Nvidia de ponta, as empresas chinesas estão dando mais importância à eficiência e otimização, o que se tornou uma vantagem competitiva potencial.

O lançamento do DeepSeek-V3-0324 também é considerado a base para seu modelo de inferência de próxima geração, o DeepSeek-R2.

Considerando a recente declaração do CEO da Nvidia, Jensen Huang, de que o modelo R1 da DeepSeek "consome 100 vezes mais poder computacional do que a IA sem inferência", o desempenho alcançado pela DeepSeek com recursos limitados é notável.

Se o DeepSeek-R2 seguir a trajetória do R1, ele pode representar um desafio direto ao GPT-5, que a OpenAI está supostamente prestes a lançar. Essa estratégia aberta e eficiente em termos de recursos da DeepSeek, em comparação com a estratégia fechada e rica em capital da OpenAI, representa duas visões concorrentes do futuro da inteligência artificial.

Atualmente, os usuários podem baixar os pesos completos do modelo no Hugging Face e também podem experimentar a API do DeepSeek-V3-0324 por meio de plataformas como OpenRouter. A própria interface de bate-papo da DeepSeek também pode ter sido atualizada para a nova versão. A estratégia aberta da DeepSeek está redefinindo o cenário global da IA, prenunciando uma era de inovação em IA mais aberta e acessível.

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

Grupo YiWu Mall integra o modelo de linguagem grande Tongyi da Alibaba para criar um assistente de gerenciamento inteligente com IA

O Grupo YiWu Mall anunciou a integração oficial do modelo de linguagem grande Tongyi da Alibaba. Combinando as vantagens da Alibaba em computação em nuvem, big data e e-commerce, ajudará 2,1 milhões de pequenas e médias empresas a usar a tecnologia de IA para alcançar operações precisas e expandir rapidamente os mercados estrangeiros. Esta colaboração marca um passo importante na transformação digital e no planejamento global do Grupo YiWu Mall, e também demonstra o importante papel da Alibaba na promoção da transformação digital das pequenas e médias empresas.

A parceria da Orange Lion Sports com o Smartshot e o modelo de linguagem grande Tongyi abre uma nova era para o esporte inteligente

No contexto do rápido desenvolvimento tecnológico de hoje, a inteligência artificial (IA) se tornou uma ferramenta essencial para aumentar a eficiência e a inovação em diversos setores. Recentemente, a Orange Lion Sports anunciou oficialmente que seu assistente de vídeo esportivo com IA, o "Orange Lion Huying Smartshot", foi integrado ao modelo de inferência de código aberto mais recente do Tongyi Qianwen, o QwQ-32B. Essa iniciativa representa uma grande atualização tecnológica para o Smartshot em termos de análise de desempenho de atletas e registro de dados. O Smartshot foi inicialmente baseado em tecnologias de visão computacional e aprendizado de máquina,

Baidu anuncia: o modelo de linguagem grande Ernie 4.5 Turbo será lançado em 25 de abril

Hoje, a Baidu anunciou oficialmente seu mais recente trabalho - o modelo de linguagem grande Ernie 4.5 Turbo, que será revelado na conferência Create, em 25 de abril. Embora a empresa ainda não tenha divulgado detalhes sobre os parâmetros e recursos específicos deste novo modelo, a expectativa é grande tanto dentro quanto fora do setor. Os detalhes completos só serão revelados no dia do lançamento.

Meta lança o modelo de linguagem grande Llama 4: arquitetura de especialista mista lidera uma nova era da IA

A Meta lançou seu mais recente modelo de inteligência artificial de código aberto, o Llama 4, marcando outro grande avanço no campo da IA. O Llama 4 vem em duas versões, chamadas Scout e Maverick, com o objetivo de melhorar a funcionalidade e o desempenho dos modelos de IA. A Meta afirma que o Llama 4 é um modelo multimodal que pode processar vários tipos de dados, incluindo texto, imagens, vídeos e áudio, e pode converter livremente entre esses formatos. Vale ressaltar que a série Llama 4 é a primeira a...

Observatório Astronômico Nacional e Alibaba Cloud lançam o primeiro modelo de linguagem grande solar do mundo, Jinwu: precisão de previsão de erupções solares de classe M5 ultrapassa 91%

Recentemente, o Observatório Astronômico Nacional da China e a Alibaba Cloud anunciaram em conjunto o lançamento do "Jinwu", o primeiro modelo de linguagem grande solar do mundo, marcando um passo importante na profunda integração da pesquisa em física solar e da tecnologia de inteligência artificial. De acordo com informações, o modelo foi desenvolvido com base no framework Tongyi Qianwen (Tongyi Qianwen) de código aberto da Alibaba Cloud, e sua precisão na previsão de erupções solares de classe M5 ultrapassa 91%, atingindo o nível mais alto do mundo para previsões dessa classe. Este feito não apenas melhora a precisão da previsão do clima espacial, mas também fornece novas técnicas para lidar com os potenciais impactos terrestres causados pela atividade solar.

Agente de IA Niu da Tuniu: Lançamento de serviço de viagens inteligente com suporte de modelo de linguagem grande de código aberto

Na tarde do dia 1º de abril, a Tuniu Travel anunciou o lançamento oficial de seu Agente de Aplicativo de Turismo de IA Niu, disponível simultaneamente no aplicativo Tuniu Travel e no miniaplicativo "Agente de IA Niu". Segundo informações, o "Agente de IA Niu" utiliza de forma inovadora os modelos de linguagem grandes de código aberto DeepSeek e Tongyi Qianwen, e integra profundamente cenários de aplicativos verticais de viagens, com o objetivo de fornecer aos usuários uma experiência de viagem mais conveniente e eficiente. Com o "Agente de IA Niu", os usuários podem facilmente pesquisar e reservar passagens aéreas, hotéis e passagens de trem. É ainda mais digno de nota que a IA...

IFlytek Medical lança o primeiro modelo de linguagem grande do mundo para diabetes tipo 1, alegando superar o GPT-4!

A IFlytek Medical anunciou hoje uma grande notícia: o lançamento oficial do primeiro modelo de linguagem grande para diabetes tipo 1 do mundo, derivado de resultados-chave de um grande projeto nacional sobre as quatro principais doenças crônicas. Afirma-se que o lançamento deste modelo representa um importante avanço científico saindo do laboratório para aplicação clínica, e também a primeira vez que a província de Anhui consegue transformar os resultados de um projeto de pesquisa científica nacional de grande porte na área de prevenção e controle de doenças crônicas. Segundo informações, o projeto se concentra nos principais desafios no processo de diagnóstico e tratamento do diabetes tipo 1, integrando dados multimodais e ampla experiência clínica, e é baseado na poderosa tecnologia do modelo de linguagem grande IFlytek Medical X1.

LiblibAI integra o modelo de linguagem grande Tongyi da Alibaba, capacitando uma nova era para 20 milhões de criadores

No campo da criação de imagens de IA na China, a plataforma LiblibAI recentemente recebeu uma grande atualização. A plataforma integrou oficialmente o modelo de linguagem grande Tongyi da Alibaba, expandindo ainda mais suas capacidades em geração de imagens de IA e criação de vídeos. Essa iniciativa não apenas representa um grande avanço na tecnologia de IA, mas também traz boas novas para uma ampla comunidade de criadores. De acordo com informações oficiais, a LiblibAI integrou o mais recente modelo de código aberto Wanxiang, lançando os recursos de texto para vídeo e imagem para vídeo. Os usuários precisam apenas inserir palavras-chave ou carregar

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral