Boletim Diário de IA: ByteDance lança o modelo de raciocínio profundo Doubao 1.5; WeChat lança o primeiro assistente de IA, Yuanbao; OpenAI lança o4-mini e o3 com capacidade total

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais tópicos do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Clique para saber mais: https://top.aibase.com/

1. OpenAI lança dois modelos de raciocínio multimodal: o4-mini e a versão completa do o3

Em uma transmissão ao vivo, a OpenAI apresentou seus mais recentes modelos multimodais, o o4-mini e a versão completa do o3. Esses dois modelos têm a capacidade de processar simultaneamente texto, imagens e áudio, e podem chamar ferramentas externas para lidar com tarefas complexas. O o4-mini teve um desempenho excelente em vários testes, com precisão superior à do o3, e ficou entre os melhores em competições de programação.

【Resumo AiBase:】
🛠️ o4-mini e o3 possuem capacidade de processamento multimodal, podendo lidar simultaneamente com texto, imagens e áudio, e chamando automaticamente ferramentas externas.
📊 o4-mini atingiu precisão de 93,4% e 92,7% nos testes AIME2024 e 2025, respectivamente, superando a versão completa do o3.
💻 Em competições de programação, o o4-mini obteve 2700 pontos, classificando-se entre os 200 melhores programadores do mundo, demonstrando sua poderosa capacidade de programação.

2. O primeiro assistente de IA do WeChat, "Yuanbao", é oficialmente lançado e pode ser adicionado como amigo do WeChat

Lançado pela Tencent, o "Yuanbao" é o primeiro assistente de IA a funcionar na plataforma WeChat. Os usuários podem pesquisar e adicioná-lo diretamente como amigo no WeChat, desfrutando de uma experiência de bate-papo mais realista. O Yuanbao não apenas pode analisar artigos, imagens e documentos de contas públicas do WeChat, mas também pode interagir de forma inteligente, respondendo a perguntas adicionais dos usuários. Este assistente prioriza a privacidade do usuário e possui uma função de marca d'água automática para fotos de documentos, embora atualmente não suporte chamadas de voz ou vídeo.

【Resumo AiBase:】
🌟 O primeiro assistente de IA do WeChat, "Yuanbao", foi lançado, e os usuários podem adicioná-lo diretamente pesquisando no WeChat.
📊 Yuanbao suporta a análise de artigos, imagens e documentos de contas públicas, fornecendo interação inteligente.
🔒 Possui recursos de proteção de privacidade, com suporte para marca d'água automática em fotos de documentos.

3. ByteDance lança o modelo de raciocínio profundo Doubao 1.5: raciocínio profundo multimodal, baixa latência

Na etapa de Hangzhou da turnê de inovação em IA da Volcano Engine, em 17 de abril, a ByteDance lançou o modelo de raciocínio profundo Doubao 1.5, demonstrando suas capacidades excepcionais em matemática, programação, raciocínio científico e redação criativa. Este modelo usa a arquitetura MoE, com configuração de parâmetros superior e baixo custo de raciocínio. Combinado com a tecnologia de compreensão visual, o modelo pode analisar fotos, auxiliar viagens e gerenciamento de projetos, e sua capacidade de pesquisa de vídeo foi significativamente aprimorada, melhorando a conveniência dos usuários na obtenção de informações.

【Resumo AiBase:】
📈 O modelo Doubao 1.5 se destaca em matemática, programação, etc., usando a arquitetura MoE, com configuração de parâmetros superior.
🌍 O novo modelo, combinado com a tecnologia de compreensão visual, pode analisar fotos, auxiliar viagens e gerenciamento de projetos, com recursos poderosos.
🎥 A capacidade de pesquisa de vídeo foi significativamente aprimorada, permitindo que os usuários acessem rapidamente informações relevantes em vídeos, com aumento contínuo no uso.

4. O lado oculto da lua Kimi lança o modelo de prova de teoremas matemáticos de código aberto Kimina-Prover

A equipe de tecnologia Kimi lançou uma versão de visualização do Kimina-Prover, disponibilizando vários modelos e conjuntos de dados de código aberto, demonstrando seu desempenho excepcional na área de prova formal de teoremas. O Kimina-Prover, combinando aprendizado por reforço em larga escala e raciocínio formal, melhorou significativamente a capacidade de raciocínio e a eficiência da amostra do modelo, atingindo uma taxa de aprovação de 80,7%, superando os resultados anteriores.

【Resumo AiBase:】
🔍 O Kimina-Prover atingiu uma taxa de aprovação de 80,7% no teste de referência miniF2F, superando os resultados anteriores.
🚀 Este modelo combina aprendizado por reforço em larga escala e raciocínio formal, melhorando significativamente a capacidade de raciocínio e a eficiência da amostra.
📚 O Kimina-Prover tem alta capacidade de explicação, permitindo que os usuários vejam o processo de dedução, facilitando a compreensão do comportamento do modelo.
Link para detalhes: https://arxiv.org/abs/2504.11354

5. OpenAI lança código aberto Super Agent: Codex CLI, ultrapassa 5000 estrelas em 5 horas

A OpenAI lançou recentemente o Codex CLI, uma ferramenta leve de agente de código inteligente, que rapidamente ganhou muita atenção, ultrapassando 5000 estrelas em apenas cinco horas, com previsão de ultrapassar 10.000 estrelas no mesmo dia. O Codex CLI possui poderosos recursos de geração, execução, refatoração e teste de código automático, melhorando significativamente a eficiência do trabalho dos desenvolvedores.

【Resumo AiBase:】
🌟 O Codex CLI recebeu 5000 estrelas em apenas 5 horas após o lançamento, com previsão de ultrapassar 10.000 estrelas hoje.
💻 Esta ferramenta pode gerar, executar, refatorar e testar código automaticamente, sendo poderosa e prática.
📈 A OpenAI planeja lançar mais produtos de agentes inteligentes e está explorando a aquisição de plataformas de programação de IA para fortalecer sua competitividade.
Link para detalhes: https://github.com/openai/codex?tab=readme-ov-file

6. O recurso Gemini Live do Google é totalmente lançado, oferecendo aos usuários do Android uma nova experiência

O Google anunciou recentemente que seu recurso Gemini Live no aplicativo Gemini está disponível gratuitamente para todos os usuários do Android. Anteriormente, este recurso estava disponível apenas para usuários do Pixel 9 e Samsung Galaxy S25. O Gemini Live é poderoso por sua capacidade de reconhecer em tempo real o conteúdo da câmera e da tela, fornecendo feedback e informações instantâneas aos usuários, melhorando significativamente a experiência interativa. Com o feedback positivo dos usuários, o Google decidiu promover este recurso, com previsão de lançamento completo nas próximas semanas.

【Resumo AiBase:】
🌟 O recurso Gemini Live agora está disponível gratuitamente para todos os usuários do Android, anteriormente disponível apenas para usuários do Pixel 9 e Galaxy S25.
📸 Este recurso pode reconhecer em tempo real o conteúdo da câmera e da tela, fornecendo informações e feedback instantâneos, melhorando a experiência interativa do usuário.
🚀 A Microsoft lançou no mesmo dia uma ferramenta de IA semelhante, Copilot Vision, mostrando o rápido progresso da tecnologia de reconhecimento de informações em tempo real.

7. OpenAI pretende adquirir a ferramenta de programação de IA Windsurf por US$ 3 bilhões

A OpenAI está em negociações para adquirir a ferramenta de programação de IA Windsurf por cerca de US$ 3 bilhões. Esta aquisição seria a maior aquisição da OpenAI, marcando sua importante estratégia no mercado de ferramentas para desenvolvedores de IA. A Windsurf é uma ferramenta de programação de IA popular que pode gerar e interpretar código, e já recebeu mais de US$ 200 milhões em financiamento.

【Resumo AiBase:】
💰 A OpenAI está em negociações para adquirir a Windsurf por US$ 3 bilhões, que seria sua maior aquisição se concretizada.
🚀 A Windsurf é uma ferramenta de programação de IA popular que suporta geração e interpretação de código, tendo recebido mais de US$ 200 milhões em financiamento.
📈 Esta aquisição aumentará a capacidade de programação da OpenAI, ajudando-a a manter uma posição de liderança no competitivo mercado de ferramentas de IA.

8. JetBrains lança o agente de codificação Junie AI, impulsionando uma nova experiência de programação e depuração

A JetBrains anunciou recentemente que seu novo agente de codificação Junie AI está pronto para produção, projetado para ajudar os desenvolvedores a escrever e depurar código de forma mais eficiente. O lançamento do Junie AI marca um grande avanço da JetBrains na área de ferramentas de IA. Além disso, a JetBrains atualizou seu assistente de IA antigo, adicionando suporte para os modelos de IA mais recentes e melhorando a experiência do usuário. Para enfrentar a concorrência de mercado, a JetBrains planeja lançar um pacote gratuito para atrair mais desenvolvedores a usar suas ferramentas.

【Resumo AiBase:】
🤖 Junie AI está pronto para produção, focando no processamento e depuração de tarefas complexas.
📈 O assistente de IA atualizado suporta vários modelos de IA recentes e adiciona a função de edição de vários arquivos.
🌐 A JetBrains lançará um pacote gratuito, oferecendo preenchimento de código ilimitado para atender às necessidades de diferentes desenvolvedores.
Link para detalhes: https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/

9. O robô humanoide de código aberto Reachy2 está oficialmente à venda

O Reachy2, lançado pela Pollen Robotics, é um robô humanoide de código aberto com preço de US$ 70.000, já usado em várias universidades e instituições de pesquisa de ponta. Seu design modular e sua poderosa capacidade de IA o tornam um pioneiro no campo da robótica humanoide, adequado para vários cenários de pesquisa e educação. A natureza de código aberto do Reachy2 e seu suporte de programação flexível oferecem aos desenvolvedores um amplo espaço para inovação, impulsionando o progresso da tecnologia robótica.

【Resumo AiBase:】
🤖 Design altamente humanoide, com braços de 7 graus de liberdade, capaz de executar movimentos de forma natural e precisa, adequado para vários cenários de aplicação.
🔄 Arquitetura modular e de código aberto, com suporte de programação Python SDK, permitindo que os desenvolvedores expandam os recursos de acordo com suas necessidades, impulsionando a inovação tecnológica.
🌍 Já implantado em mais de 20 países em todo o mundo, com clientes incluindo instituições renomadas, mostrando seu amplo potencial de aplicação em áreas como saúde, varejo e educação.

10. O Laboratório de Inteligência Artificial de Xangai lança a versão atualizada do grande modelo multimodal "Shusheng · Wanxiang 3.0"

O "Shusheng · Wanxiang 3.0", lançado pelo Laboratório de Inteligência Artificial de Xangai, é um novo grande modelo multimodal com capacidades aprimoradas de processamento de entrada de texto e multimodal, com excelente desempenho. Este modelo apresenta melhorias significativas no desempenho e na experiência do usuário, com maior velocidade de resposta e capacidade de compreensão, atendendo às diversas necessidades dos usuários.

【Resumo AiBase:】
🚀 A versão atualizada "Shusheng · Wanxiang 3.0" apresenta melhorias significativas na capacidade de processamento multimodal, adequada para vários cenários de aplicação.
💡 Este modelo apresenta melhorias significativas no desempenho e na experiência do usuário, com maior velocidade de resposta e capacidade de compreensão.
🌐 As iniciativas de código aberto fornecem aos desenvolvedores uma nova plataforma, incentivando a inovação e a aplicação, impulsionando o desenvolvimento do setor.

11. Os modelos Doubao Deep Thinking e Image Generation 3.0 são oficialmente abertos via API para clientes corporativos

Os grandes modelos Doubao lançaram recentemente os modelos Doubao 1.5 Deep Thinking e Doubao Image Generation 3.0, oficialmente abertos via API da Volcano Engine para desenvolvedores e clientes corporativos. Esses dois modelos têm um desempenho excelente em tarefas de raciocínio e geração de imagens, impulsionando a aplicação e o desenvolvimento da tecnologia de IA. O modelo Deep Thinking se destaca em tarefas de raciocínio profissional, enquanto o modelo Image Generation apresenta melhorias significativas na qualidade da geração de imagens.

【Resumo AiBase:】
🧠 O modelo Doubao 1.5 Deep Thinking tem um desempenho excelente em tarefas de raciocínio em áreas profissionais, aproximando-se do primeiro escalão mundial.
🎨 O modelo Doubao Image Generation 3.0 realiza a geração de imagens de alta resolução, melhorando a eficiência da criação e possuindo capacidade de design de nível comercial.
🚀 A API aberta desses dois modelos fornece aos clientes corporativos capacidades de raciocínio e geração de imagens mais eficientes e versáteis, impulsionando o desenvolvimento da tecnologia de IA.
Link para detalhes: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Boletim Diário de IA: ByteDance lança o modelo de raciocínio profundo Doubao 1.5; WeChat lança o primeiro assistente de IA, Yuanbao; OpenAI lança o4-mini e o3 com capacidade total

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Novos modelos de raciocínio o3 e o4-mini da OpenAI impulsionam tendência de localização de fotos, levantando preocupações sobre privacidade

Laboratório de IA de Xangai lança versão aprimorada do modelo multimodal de grande escala, Shusen · Wanxiang 3.0

Novo sistema da OpenAI bloqueia informações sobre riscos biológicos e químicos para garantir a segurança da IA

OpenAI lança novo modelo de IA com capacidade de 'pensar em imagens'

OpenAI lança novo modelo de raciocínio o3 com capacidade de pensamento de imagem

OpenAI lança dois modelos de raciocínio multimodais: o4-mini e a versão completa do o3

Modelo de Visão 3D de Grande Escala SpatialLM de Código Aberto: Reconhecimento de Conteúdo de Cena em Tempo Real

SenseTime lança novo modelo multimodal de grande linguagem, preparando o cenário para uma nova era de interação

DeepCoder-14B Lançado: Ferramenta de Codificação de IA Open Source Rivaliza com o1 e o3-mini, Desbloqueando Novos Limites Tecnológicos

Steigende Kosten für den Betrieb des OpenAI o3-Modells: Die Kosten pro Aufgabe steigen von 3000 US-Dollar auf 30000 US-Dollar