Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo de IA, com foco em desenvolvedores, ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA clique para saber mais: https://top.aibase.com/

1、Modelo de geração de vídeo de quadro inicial e final Ali Tongyi Wanxiang Wan2.1-FLF2V-14B de código aberto

O laboratório Tongyi da Alibaba lançou o modelo Wan2.1-FLF2V-14B no Hugging Face e no GitHub, marcando um grande avanço na tecnologia de geração de vídeo de IA. O modelo suporta a geração de vídeos em alta definição e realiza transições de animação suaves usando quadros iniciais e finais fornecidos pelo usuário, com várias funções, como texto para vídeo e edição de vídeo. A natureza de código aberto reduz as barreiras tecnológicas, atraindo a atenção dos desenvolvedores e promovendo o amplo uso da criação de vídeo de IA.

image.png

【Resumo AiBase:】

📸 Suporta controle de quadros inicial e final; os usuários precisam fornecer apenas duas imagens para gerar um vídeo HD de 5 segundos e 720p suave.

🚀 O modelo possui suporte multi-modal; além da geração de vídeo, ele também pode realizar geração de imagem e áudio guiada por texto, expandindo os cenários criativos.

🌐 O ecossistema de código aberto promoveu a participação dos desenvolvedores; a atividade de experiência gratuita lançada pela Alibaba estimulou ainda mais o feedback e a otimização da comunidade.

Link para detalhes: https://github.com/Wan-Video/Wan2.1

2、Byte Doubao lança o modelo de agente inteligente Seed UI-TARS-1.5 de código aberto

O modelo UI-TARS-1.5 da ByteDance alcançou um progresso notável na área de agentes inteligentes multimodais, especialmente em operações de GUI e raciocínio de jogos. O modelo aprimorou sua capacidade de raciocínio de alto nível por meio de aprendizado por reforço, mostrando um desempenho superior em tarefas complexas. O UI-TARS-1.5 de código aberto fornece aos desenvolvedores uma ferramenta poderosa, impulsionando o desenvolvimento da tecnologia de agentes inteligentes multimodais; no futuro, ele continuará a ser otimizado para se aproximar do nível humano.

image.png

【Resumo AiBase:】

🖥️ O UI-TARS-1.5 alcançou o desempenho SOTA em 7 benchmarks de avaliação de GUI, mostrando sua capacidade de raciocínio e interação de longo prazo.

🎮 Em tarefas de jogo, o UI-TARS-1.5 mostrou escalabilidade estável de inferência e, no Minecraft, verificou a eficácia de seu mecanismo de "pensar-e-agir".

📈 O modelo, por meio do aprimoramento da percepção visual e do mecanismo de raciocínio System2, realizou operações de GUI precisas, reduzindo as barreiras de desenvolvimento.

Link para detalhes: https://github.com/bytedance/UI-TARS - Website:https://seed-tars.com/ - Arxiv:https://arxiv.org/abs/2501.12326

3、OpenAI lança um documento prático sobre "Práticas de Construção de Agentes" (com recursos do documento)

O guia prático para construção de agentes, lançado recentemente pela OpenAI, fornece às equipes de produtos e engenharia o conhecimento necessário e as melhores práticas para construir sistemas de agentes. O guia descreve em detalhes a definição, o design e a implantação segura de agentes, enfatizando as diferenças fundamentais entre agentes e software tradicional, especialmente adequado para tomada de decisões complexas e processamento de dados não estruturados.

image.png

【Resumo AiBase:】

🧠 Os agentes possuem alta autonomia e podem representar os usuários na conclusão de fluxos de trabalho complexos, ao contrário da automação de software tradicional.

🔧 A construção de agentes requer a consideração de componentes centrais como modelos, ferramentas e instruções para garantir a eficácia e confiabilidade dos agentes.

🔒 Os guardrails de segurança são essenciais para gerenciar a privacidade de dados e os riscos de reputação; os desenvolvedores devem configurar medidas de proteção de várias camadas para lidar com potenciais riscos.

Link para detalhes: https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

4、腾讯 HunYuan InstantCharacter de código aberto, alta consistência de personagem, poses, estilos e cenários personalizados

A equipe Tencent HunYuan lançou oficialmente o framework InstantCharacter, uma ferramenta de personalização de personagens baseada em transformadores de difusão, com alta consistência e flexibilidade, capaz de gerar personalizações de personagens diversificadas a partir de uma única imagem e aplicável a vários estilos artísticos. O lançamento de código aberto deste framework reduzirá as barreiras tecnológicas de personalização de personagens, inspirando a paixão inovadora de desenvolvedores em todo o mundo, mas também é necessário prestar atenção aos problemas de direitos autorais e éticos.

image.png

【Resumo AiBase:】

🖼️ Acionamento por imagem única: apenas uma imagem de personagem e um prompt de texto são necessários para gerar poses, estilos e cenários diversificados.

🔄 Alta consistência: por meio da arquitetura DiT avançada, garante-se a alta consistência das imagens geradas nas características do personagem.

🌈 Diversidade de estilos: suporta vários estilos, como realismo, anime e desenho animado, atendendo a diferentes necessidades criativas.

Link para detalhes: https://huggingface.co/spaces/InstantX/InstantCharacter

5、Tecnologia revolucionária de difusão de vídeo FramePack: apenas 6 GB de memória de vídeo, 1,5 segundos/quadro

FramePack é uma tecnologia revolucionária de difusão de vídeo; sua baixa necessidade de memória de vídeo e sua capacidade de geração eficiente tornam-na um divisor de águas no campo da geração de vídeo. Com apenas 6 GB de memória de vídeo, o FramePack pode gerar vídeos de milhares de quadros em taxa de quadros total, reduzindo drasticamente as barreiras tecnológicas de aplicação. Além disso, sua velocidade de geração pode atingir 1,5 segundos/quadro após a otimização, fornecendo novas possibilidades para criação de conteúdo e aplicativos em tempo real.image.png

【Resumo AiBase:】

💻 O FramePack requer apenas 6 GB de memória de vídeo e pode gerar vídeos de milhares de quadros a 30 fps, reduzindo as barreiras tecnológicas.

⚡ Velocidade de geração impressionante, 2,5 segundos/quadro sem otimização e 1,5 segundos/quadro após otimização, adequado para vários cenários de aplicação.

🌍 Esta tecnologia oferece amplas perspectivas de aplicação para criação de conteúdo, desenvolvimento de jogos e computação de ponta, promovendo a "democratização" da tecnologia de geração de vídeo.

Link para detalhes: https://lllyasviel.github.io/frame_pack_gitpage/

6、Google lança o novo Gemini 2.5 Flash: um assistente de IA que combina inteligência e velocidade

A versão Gemini 2.5 Flash, lançada recentemente pelo Google, apresenta melhorias significativas na capacidade de raciocínio, especialmente com a introdução de um modelo de raciocínio totalmente híbrido, permitindo que os desenvolvedores controlem de forma flexível o custo e o atraso durante o processo de raciocínio, de acordo com suas necessidades. Ao definir um orçamento de raciocínio, os desenvolvedores podem encontrar um equilíbrio ideal entre qualidade e eficiência. Esta versão tem um desempenho excelente no processamento de tarefas complexas, especialmente em cenários de raciocínio de várias etapas, mostrando seu desempenho e flexibilidade excepcionais.

image.png

【Resumo AiBase:】

💡 O Gemini 2.5 Flash introduz um modelo de raciocínio totalmente híbrido, permitindo que os desenvolvedores escolham habilitar a função de raciocínio e controlar de forma flexível o processo de raciocínio.

⚙️ Os desenvolvedores podem definir um orçamento de raciocínio, equilibrando qualidade, custo e atraso para atender às necessidades de diferentes tarefas.

📊 No teste de "prompts difíceis" do LMArena, o Gemini 2.5 Flash teve um desempenho excelente, ficando atrás apenas do 2.5 Pro, mostrando sua poderosa capacidade de raciocínio.

7、OpenAI lança a API de processamento Flex para facilitar aplicativos de IA de baixo custo

A OpenAI lançou recentemente a API de processamento Flex para lidar com a intensa concorrência no mercado de inteligência artificial. Esta API permite que os usuários usem modelos de IA a um custo menor, embora haja um compromisso na velocidade de resposta e disponibilidade. O processamento Flex é especialmente adequado para tarefas de baixa prioridade e não produtivas, reduzindo significativamente os custos de uso, especialmente no contexto atual de aumento generalizado dos serviços de IA, oferecendo uma opção econômica.

image.png

【Resumo AiBase:】

💰 A API de processamento Flex permite que os usuários usem modelos de IA a um custo menor, adequado para desenvolvedores com orçamento limitado.

⚡ Ao usar o processamento Flex, o preço dos tokens de entrada do modelo o3 cai para US$ 5 por milhão e o preço dos tokens de saída cai para US$ 20 por milhão.

🔒 Para garantir o uso razoável, os desenvolvedores precisam passar por um processo de verificação de identidade para acessar o modelo o3, mantendo a segurança da plataforma.

8、O editor de imagens Midjourney recebe uma grande atualização: nova IU, recursos de camadas e ferramentas inteligentes lançadas

Em 17 de abril de 2025, o Midjourney lançou uma atualização importante para seu editor de imagens, otimizando a experiência do usuário e introduzindo vários recursos inovadores, incluindo uma nova interface do usuário, recursos de camadas, ferramentas de seleção inteligente e um mecanismo de revisão de conteúdo atualizado. Essas melhorias não apenas melhoraram a eficiência e a flexibilidade da edição, mas também aumentaram a segurança da plataforma, consolidando ainda mais a posição de liderança do Midjourney no campo das ferramentas criativas de IA.

image.png

【Resumo AiBase:】

🖌️ Nova interface do usuário otimizada, melhorando a eficiência operacional e a experiência criativa, adequada para designers profissionais e usuários iniciantes.

📂 Introdução de recursos de camadas, permitindo que os usuários gerenciem imagens em camadas, aumentando a flexibilidade e precisão da criação.

🔍 Novas ferramentas de seleção inteligente, usando algoritmos de IA para simplificar operações de edição complexas e melhorar a eficiência da edição.

9、Microsoft lança o novo modelo de linguagem BitNet b1.58 2B4T, ocupando apenas 0,4 GB de memória

O modelo de linguagem de código aberto BitNet b1.58 2B4T, lançado pela equipe de pesquisa da Microsoft, chamou a atenção por seus 2 bilhões de parâmetros e ocupação de memória de apenas 0,4 GB. Este modelo usa uma arquitetura inovadora de baixa precisão de 1,58 bits, reduzindo significativamente a necessidade de recursos computacionais e apresentando um desempenho superior em comparação com produtos semelhantes. Após o pré-treinamento e ajuste fino, o BitNet teve um desempenho excelente em vários testes de referência e apresenta vantagens significativas em termos de consumo de energia e atraso de decodificação.

image.png

【Resumo AiBase:】

🌟 Este modelo possui 2 bilhões de parâmetros e ocupa apenas 0,4 GB de memória, significativamente menor do que produtos semelhantes.

🔧 Usa uma arquitetura inovadora, abandonando os valores tradicionais de 16 bits e usando armazenamento de peso de baixa precisão de 1,58 bits.

🚀 Já lançado no Hugging Face, a Microsoft planeja otimizar ainda mais os recursos e o desempenho do modelo.

Link para detalhes: https://arxiv.org/html/2504.12285v1

10、Genspark Super Agent adiciona uma ferramenta de conversão de arquivos, suportando a conversão de mais de 400 formatos de arquivo

O Genspark Super Agent lançou uma nova ferramenta de conversão de arquivos que suporta a conversão mútua de mais de 400 formatos de arquivo, melhorando muito a eficiência do trabalho dos usuários. Esta ferramenta é fácil de usar; os usuários precisam apenas enviar o arquivo e selecionar o formato de destino para concluir a conversão rapidamente. Seus recursos de otimização inteligente e integração perfeita tornam esta ferramenta um assistente indispensável para usuários individuais e corporativos no trabalho diário.

image.png