Boletim de IA: Modelo de vídeo frame-a-frame Ali Tongyi Wanxiang; Modelo de agente inteligente Seed de Doubao UI-TARS-1.5; Guia de prática de agente inteligente da OpenAI

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo de IA, com foco em desenvolvedores, ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA clique para saber mais: https://top.aibase.com/

1、Modelo de geração de vídeo de quadro inicial e final Ali Tongyi Wanxiang Wan2.1-FLF2V-14B de código aberto

O laboratório Tongyi da Alibaba lançou o modelo Wan2.1-FLF2V-14B no Hugging Face e no GitHub, marcando um grande avanço na tecnologia de geração de vídeo de IA. O modelo suporta a geração de vídeos em alta definição e realiza transições de animação suaves usando quadros iniciais e finais fornecidos pelo usuário, com várias funções, como texto para vídeo e edição de vídeo. A natureza de código aberto reduz as barreiras tecnológicas, atraindo a atenção dos desenvolvedores e promovendo o amplo uso da criação de vídeo de IA.

【Resumo AiBase:】

📸 Suporta controle de quadros inicial e final; os usuários precisam fornecer apenas duas imagens para gerar um vídeo HD de 5 segundos e 720p suave.

🚀 O modelo possui suporte multi-modal; além da geração de vídeo, ele também pode realizar geração de imagem e áudio guiada por texto, expandindo os cenários criativos.

🌐 O ecossistema de código aberto promoveu a participação dos desenvolvedores; a atividade de experiência gratuita lançada pela Alibaba estimulou ainda mais o feedback e a otimização da comunidade.

Link para detalhes: https://github.com/Wan-Video/Wan2.1

2、Byte Doubao lança o modelo de agente inteligente Seed UI-TARS-1.5 de código aberto

O modelo UI-TARS-1.5 da ByteDance alcançou um progresso notável na área de agentes inteligentes multimodais, especialmente em operações de GUI e raciocínio de jogos. O modelo aprimorou sua capacidade de raciocínio de alto nível por meio de aprendizado por reforço, mostrando um desempenho superior em tarefas complexas. O UI-TARS-1.5 de código aberto fornece aos desenvolvedores uma ferramenta poderosa, impulsionando o desenvolvimento da tecnologia de agentes inteligentes multimodais; no futuro, ele continuará a ser otimizado para se aproximar do nível humano.

【Resumo AiBase:】

🖥️ O UI-TARS-1.5 alcançou o desempenho SOTA em 7 benchmarks de avaliação de GUI, mostrando sua capacidade de raciocínio e interação de longo prazo.

🎮 Em tarefas de jogo, o UI-TARS-1.5 mostrou escalabilidade estável de inferência e, no Minecraft, verificou a eficácia de seu mecanismo de "pensar-e-agir".

📈 O modelo, por meio do aprimoramento da percepção visual e do mecanismo de raciocínio System2, realizou operações de GUI precisas, reduzindo as barreiras de desenvolvimento.

Link para detalhes: https://github.com/bytedance/UI-TARS - Website:https://seed-tars.com/ - Arxiv:https://arxiv.org/abs/2501.12326

3、OpenAI lança um documento prático sobre "Práticas de Construção de Agentes" (com recursos do documento)

O guia prático para construção de agentes, lançado recentemente pela OpenAI, fornece às equipes de produtos e engenharia o conhecimento necessário e as melhores práticas para construir sistemas de agentes. O guia descreve em detalhes a definição, o design e a implantação segura de agentes, enfatizando as diferenças fundamentais entre agentes e software tradicional, especialmente adequado para tomada de decisões complexas e processamento de dados não estruturados.

【Resumo AiBase:】

🧠 Os agentes possuem alta autonomia e podem representar os usuários na conclusão de fluxos de trabalho complexos, ao contrário da automação de software tradicional.

🔧 A construção de agentes requer a consideração de componentes centrais como modelos, ferramentas e instruções para garantir a eficácia e confiabilidade dos agentes.

🔒 Os guardrails de segurança são essenciais para gerenciar a privacidade de dados e os riscos de reputação; os desenvolvedores devem configurar medidas de proteção de várias camadas para lidar com potenciais riscos.

Link para detalhes: https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

4、腾讯 HunYuan InstantCharacter de código aberto, alta consistência de personagem, poses, estilos e cenários personalizados

A equipe Tencent HunYuan lançou oficialmente o framework InstantCharacter, uma ferramenta de personalização de personagens baseada em transformadores de difusão, com alta consistência e flexibilidade, capaz de gerar personalizações de personagens diversificadas a partir de uma única imagem e aplicável a vários estilos artísticos. O lançamento de código aberto deste framework reduzirá as barreiras tecnológicas de personalização de personagens, inspirando a paixão inovadora de desenvolvedores em todo o mundo, mas também é necessário prestar atenção aos problemas de direitos autorais e éticos.

【Resumo AiBase:】

🖼️ Acionamento por imagem única: apenas uma imagem de personagem e um prompt de texto são necessários para gerar poses, estilos e cenários diversificados.

🔄 Alta consistência: por meio da arquitetura DiT avançada, garante-se a alta consistência das imagens geradas nas características do personagem.

🌈 Diversidade de estilos: suporta vários estilos, como realismo, anime e desenho animado, atendendo a diferentes necessidades criativas.

Link para detalhes: https://huggingface.co/spaces/InstantX/InstantCharacter

5、Tecnologia revolucionária de difusão de vídeo FramePack: apenas 6 GB de memória de vídeo, 1,5 segundos/quadro

FramePack é uma tecnologia revolucionária de difusão de vídeo; sua baixa necessidade de memória de vídeo e sua capacidade de geração eficiente tornam-na um divisor de águas no campo da geração de vídeo. Com apenas 6 GB de memória de vídeo, o FramePack pode gerar vídeos de milhares de quadros em taxa de quadros total, reduzindo drasticamente as barreiras tecnológicas de aplicação. Além disso, sua velocidade de geração pode atingir 1,5 segundos/quadro após a otimização, fornecendo novas possibilidades para criação de conteúdo e aplicativos em tempo real.

【Resumo AiBase:】

💻 O FramePack requer apenas 6 GB de memória de vídeo e pode gerar vídeos de milhares de quadros a 30 fps, reduzindo as barreiras tecnológicas.

⚡ Velocidade de geração impressionante, 2,5 segundos/quadro sem otimização e 1,5 segundos/quadro após otimização, adequado para vários cenários de aplicação.

🌍 Esta tecnologia oferece amplas perspectivas de aplicação para criação de conteúdo, desenvolvimento de jogos e computação de ponta, promovendo a "democratização" da tecnologia de geração de vídeo.

Link para detalhes: https://lllyasviel.github.io/frame_pack_gitpage/

6、Google lança o novo Gemini 2.5 Flash: um assistente de IA que combina inteligência e velocidade

A versão Gemini 2.5 Flash, lançada recentemente pelo Google, apresenta melhorias significativas na capacidade de raciocínio, especialmente com a introdução de um modelo de raciocínio totalmente híbrido, permitindo que os desenvolvedores controlem de forma flexível o custo e o atraso durante o processo de raciocínio, de acordo com suas necessidades. Ao definir um orçamento de raciocínio, os desenvolvedores podem encontrar um equilíbrio ideal entre qualidade e eficiência. Esta versão tem um desempenho excelente no processamento de tarefas complexas, especialmente em cenários de raciocínio de várias etapas, mostrando seu desempenho e flexibilidade excepcionais.

【Resumo AiBase:】

💡 O Gemini 2.5 Flash introduz um modelo de raciocínio totalmente híbrido, permitindo que os desenvolvedores escolham habilitar a função de raciocínio e controlar de forma flexível o processo de raciocínio.

⚙️ Os desenvolvedores podem definir um orçamento de raciocínio, equilibrando qualidade, custo e atraso para atender às necessidades de diferentes tarefas.

📊 No teste de "prompts difíceis" do LMArena, o Gemini 2.5 Flash teve um desempenho excelente, ficando atrás apenas do 2.5 Pro, mostrando sua poderosa capacidade de raciocínio.

7、OpenAI lança a API de processamento Flex para facilitar aplicativos de IA de baixo custo

A OpenAI lançou recentemente a API de processamento Flex para lidar com a intensa concorrência no mercado de inteligência artificial. Esta API permite que os usuários usem modelos de IA a um custo menor, embora haja um compromisso na velocidade de resposta e disponibilidade. O processamento Flex é especialmente adequado para tarefas de baixa prioridade e não produtivas, reduzindo significativamente os custos de uso, especialmente no contexto atual de aumento generalizado dos serviços de IA, oferecendo uma opção econômica.

【Resumo AiBase:】

💰 A API de processamento Flex permite que os usuários usem modelos de IA a um custo menor, adequado para desenvolvedores com orçamento limitado.

⚡ Ao usar o processamento Flex, o preço dos tokens de entrada do modelo o3 cai para US$ 5 por milhão e o preço dos tokens de saída cai para US$ 20 por milhão.

🔒 Para garantir o uso razoável, os desenvolvedores precisam passar por um processo de verificação de identidade para acessar o modelo o3, mantendo a segurança da plataforma.

8、O editor de imagens Midjourney recebe uma grande atualização: nova IU, recursos de camadas e ferramentas inteligentes lançadas

Em 17 de abril de 2025, o Midjourney lançou uma atualização importante para seu editor de imagens, otimizando a experiência do usuário e introduzindo vários recursos inovadores, incluindo uma nova interface do usuário, recursos de camadas, ferramentas de seleção inteligente e um mecanismo de revisão de conteúdo atualizado. Essas melhorias não apenas melhoraram a eficiência e a flexibilidade da edição, mas também aumentaram a segurança da plataforma, consolidando ainda mais a posição de liderança do Midjourney no campo das ferramentas criativas de IA.

【Resumo AiBase:】

🖌️ Nova interface do usuário otimizada, melhorando a eficiência operacional e a experiência criativa, adequada para designers profissionais e usuários iniciantes.

📂 Introdução de recursos de camadas, permitindo que os usuários gerenciem imagens em camadas, aumentando a flexibilidade e precisão da criação.

🔍 Novas ferramentas de seleção inteligente, usando algoritmos de IA para simplificar operações de edição complexas e melhorar a eficiência da edição.

9、Microsoft lança o novo modelo de linguagem BitNet b1.58 2B4T, ocupando apenas 0,4 GB de memória

O modelo de linguagem de código aberto BitNet b1.58 2B4T, lançado pela equipe de pesquisa da Microsoft, chamou a atenção por seus 2 bilhões de parâmetros e ocupação de memória de apenas 0,4 GB. Este modelo usa uma arquitetura inovadora de baixa precisão de 1,58 bits, reduzindo significativamente a necessidade de recursos computacionais e apresentando um desempenho superior em comparação com produtos semelhantes. Após o pré-treinamento e ajuste fino, o BitNet teve um desempenho excelente em vários testes de referência e apresenta vantagens significativas em termos de consumo de energia e atraso de decodificação.

【Resumo AiBase:】

🌟 Este modelo possui 2 bilhões de parâmetros e ocupa apenas 0,4 GB de memória, significativamente menor do que produtos semelhantes.

🔧 Usa uma arquitetura inovadora, abandonando os valores tradicionais de 16 bits e usando armazenamento de peso de baixa precisão de 1,58 bits.

🚀 Já lançado no Hugging Face, a Microsoft planeja otimizar ainda mais os recursos e o desempenho do modelo.

Link para detalhes: https://arxiv.org/html/2504.12285v1

10、Genspark Super Agent adiciona uma ferramenta de conversão de arquivos, suportando a conversão de mais de 400 formatos de arquivo

O Genspark Super Agent lançou uma nova ferramenta de conversão de arquivos que suporta a conversão mútua de mais de 400 formatos de arquivo, melhorando muito a eficiência do trabalho dos usuários. Esta ferramenta é fácil de usar; os usuários precisam apenas enviar o arquivo e selecionar o formato de destino para concluir a conversão rapidamente. Seus recursos de otimização inteligente e integração perfeita tornam esta ferramenta um assistente indispensável para usuários individuais e corporativos no trabalho diário.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Boletim de IA: Modelo de vídeo frame-a-frame Ali Tongyi Wanxiang; Modelo de agente inteligente Seed de Doubao UI-TARS-1.5; Guia de prática de agente inteligente da OpenAI

站长之家

Este artigo é do AIbase Daily