AI Diário: Modelo de vídeo gerado por texto Wanxiang 2.1 da Alibaba de código aberto; Quantficação de formas fantásticas responde ao lançamento antecipado do modelo DeepSeek-R2; Teste de convite para usuários do Baidu "Miada"

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais assuntos do campo da IA, com foco em desenvolvedores, para ajudá-lo a entender as tendências tecnológicas e conhecer os aplicativos inovadores de produtos de IA.

Novos produtos de IA Clique para saber mais: https://top.aibase.com/

1、Modelo de geração de vídeo de código aberto Tongyi Wanxiang Wan2.1: 8.2G de memória de vídeo podem gerar vídeos de 480P

O modelo Wan2.1, recentemente lançado pela Tongyi Wanxiang, concentra-se na geração de vídeos de alta qualidade. Graças ao seu desempenho excepcional e tecnologia inovadora, tornou-se a ferramenta preferida de criadores e usuários corporativos. O modelo obteve uma pontuação alta de 86,22% no teste Vbench, superando outros modelos de geração de vídeo e demonstrando uma vantagem de desempenho significativa. O Wan2.1 otimiza a eficiência de geração e inferência de vídeo por meio de um módulo VAE causal 3D eficiente e uma arquitetura Diffusion Transformer, oferecendo aos usuários opções flexíveis de desenvolvimento e implantação.

【Resumo AiBase:】
🚀 O modelo Wan2.1 ficou em primeiro lugar no teste Vbench com uma pontuação de 86,22%, superando outros modelos de geração de vídeo.
💡 Usando o módulo VAE causal 3D, ele realiza uma compressão de espaço latente de vídeo sem perdas de 256 vezes, aumentando a velocidade de reconstrução de vídeo.
🔧 Suporta vários frameworks principais. Os desenvolvedores podem experimentar rapidamente por meio do Gradio, simplificando o processo de inferência e implantação.
Link de detalhes:https://github.com/Wan-Video

2、360 Zhi Nao lança Tiny-R1-32B: 5% dos parâmetros se aproximam do desempenho total do Deepseek-R1

O modelo Tiny-R1-32B-Preview, lançado em conjunto pela equipe 360 Zhi Nao e pela Universidade de Pequim, aproximou-se com sucesso do desempenho do Deepseek-R1 com apenas 5% da quantidade de parâmetros, demonstrando o potencial de modelos menores na inferência eficiente. O modelo apresentou desempenho excelente em avaliações de matemática, programação e ciências, obtendo uma pontuação de 78,1 na avaliação AIME2024, mostrando sua capacidade de otimização equilibrada em várias tarefas. A equipe de desenvolvimento prometeu abrir os recursos completos do modelo para promover o desenvolvimento inclusivo da tecnologia.

【Resumo AiBase:】
📊 O modelo Tiny-R1-32B-Preview aproximou-se do desempenho do Deepseek-R1 com 5% dos parâmetros, mostrando o potencial de inferência eficiente de modelos menores.
💻 Nas áreas de matemática, programação e ciências, o modelo apresentou desempenho excelente em várias avaliações, superando o melhor modelo de código aberto de 70B atual.
🔗 A equipe de desenvolvimento prometeu divulgar o repositório completo do modelo para promover a inclusão tecnológica e já carregou o modelo para a plataforma Hugging Face.
Link de detalhes:https://huggingface.co/qihoo360/TinyR1-32B-Preview

3、Terceiro dia da semana de código aberto DeepSeek: lançamento do DeepGEMM, biblioteca FP8 GEMM para auxiliar no treinamento e inferência de IA

No terceiro dia da semana de código aberto, a empresa chinesa de inteligência artificial DeepSeek lançou o DeepGEMM, uma biblioteca de código aberto que suporta multiplicação de matrizes genéricas FP8, com o objetivo de fornecer suporte para modelos de especialistas densos e mistos. A biblioteca atingiu mais de 1350 TFLOPS de desempenho de cálculo FP8 em GPUs NVIDIA Hopper, e seu código principal tem apenas 300 linhas, mostrando sua alta eficiência e simplicidade. O lançamento do DeepGEMM marca um novo esforço da DeepSeek para promover a transparência da tecnologia de IA e a colaboração da comunidade, e espera-se que no futuro ele traga melhorias significativas para o treinamento e inferência de IA.

【Resumo AiBase:】
🚀 DeepGEMM é uma biblioteca de código aberto projetada para operações de matriz de especialistas densos e mistos, suportando multiplicação de matrizes genéricas FP8.
💻 Em GPUs NVIDIA Hopper, o DeepGEMM pode atingir um desempenho de cálculo FP8 de até 1350+ TFLOPS, mostrando sua excelente eficiência.
🌐 O lançamento desta biblioteca não apenas melhorou o desempenho do modelo DeepSeek, mas também forneceu aos desenvolvedores globais uma ferramenta de operação de matriz eficiente e fácil de usar.
Link de detalhes:https://github.com/deepseek-ai/DeepGEMM

4、A ferramenta de desenvolvimento sem código da Baidu, “Miaoda”, inicia testes com usuários

Em 25 de fevereiro, a Baidu anunciou oficialmente que sua ferramenta de desenvolvimento sem código, “Miaoda”, iniciou os testes com usuários. Os usuários podem acessar a página inicial do Miaoda por meio do e-mail de teste recebido para experimentar os recursos de desenvolvimento de páginas H5 e desenvolvimento de sites. Lançada na Conferência Mundial Baidu 2024 em 12 de novembro de 2024, a ferramenta possui recursos como programação sem código, colaboração multiagente e chamadas de várias ferramentas. O número de usuários corporativos que solicitaram testes ultrapassou 20.000, e a Baidu lançará mais recursos posteriormente. Os usuários podem solicitar para entrar na fila de testes no site oficial da Baidu Intelligent Cloud.

【Resumo AiBase:】
🚀 Os usuários podem acessar o Miaoda por meio de e-mails de teste para experimentar vários recursos de desenvolvimento.
📈 O número de usuários corporativos que solicitaram testes ultrapassou 20.000, mostrando uma forte demanda de mercado.
🔧 O Miaoda possui recursos principais como programação sem código e colaboração multiagente, melhorando a eficiência de desenvolvimento.
Link de detalhes:https://digital.cloud.baidu.com/mF/commonLandingPage/CTA/889605a4883041b98b16538350ea33f8?pushId=bBDCrkwdYZ6bP8TE44JbCM1

5、O modelo de IA de baixo custo do Google, Gemini 2.0 Flash-Lite, é lançado oficialmente

O Google lançou recentemente o Gemini 2.0 Flash-Lite, a opção mais econômica de sua série de modelos de IA, projetada para fornecer uma solução de alta relação custo-benefício para desenvolvedores com orçamentos limitados. O modelo tem um desempenho excelente no processamento de tarefas de saída de texto em larga escala, com uma estratégia de preços altamente competitiva, sendo o custo de tokens de entrada e saída muito menor do que o de produtos semelhantes no mercado. Embora não suporte recursos avançados, sua eficiência e praticidade na área de geração de texto o tornam ideal para startups e pequenas equipes.

【Resumo AiBase:】
💰 O preço dos tokens de entrada do Gemini 2.0 Flash-Lite é de US$ 0,075 por milhão, e o preço dos tokens de saída é de US$ 0,30 por milhão, oferecendo uma excelente relação custo-benefício.
📈 O desempenho do modelo é superior ao do Gemini 1.5 Flash, podendo processar uma janela de contexto de 1 milhão de tokens, adequada para tarefas de alta frequência.
📝 Embora não suporte saída de imagem ou áudio, o Gemini 2.0 Flash-Lite concentra-se na geração de texto, podendo gerar títulos de uma linha para cerca de 40.000 fotos com um custo inferior a US$ 1.

6、A quantificação de Huánfāng responde ao lançamento antecipado do modelo DeepSeek-R2: siga as informações oficiais

Recentemente, a quantificação de Huánfāng respondeu aos rumores sobre o lançamento antecipado do novo modelo de IA R2 da DeepSeek, enfatizando que todas as informações devem ser baseadas nas informações oficiais. A quantificação de Huánfāng fundou a empresa de IA DeepSeek em julho de 2023 e lançou o modelo DeepSeek-R1 em janeiro deste ano. A Reuters informou que a DeepSeek está acelerando o lançamento do modelo R2, planejando antecipá-lo para maio, e espera-se que o novo modelo melhore sua capacidade de geração de código e raciocínio multilíngue.

【Resumo AiBase:】
🔍 A quantificação de Huánfāng indicou que as informações oficiais devem ser seguidas em resposta aos rumores sobre o lançamento antecipado do modelo DeepSeek-R2.
🚀 A DeepSeek fundou a empresa de IA DeepSeek em julho de 2023 e lançou com sucesso o modelo DeepSeek-R1 em janeiro.
🌐 Espera-se que a nova geração do modelo DeepSeek-R2 melhore sua capacidade de geração de código e raciocínio multilíngue.

7、A Microsoft lança o novo agente de IA multimodal de código aberto “Magma”: pode fazer pedidos automaticamente e prever comportamentos

A Microsoft lançou recentemente um modelo básico de agente de IA multimodal chamado “Magma” em seu site oficial. O Magma pode cruzar os mundos digital e físico, processar vários tipos de dados como imagens, vídeos e texto, e possui a capacidade de previsão psicológica, permitindo uma compreensão mais precisa das intenções de pessoas ou objetos. Os cenários de aplicação desta IA são muito amplos, podendo não apenas auxiliar os usuários em operações diárias, como fazer pedidos automaticamente e consultar o clima, mas também controlar robôs físicos e fornecer assistência em tempo real. O lançamento do Magma representa um grande avanço na tecnologia de assistentes inteligentes e robôs, sendo particularmente adequado para assistentes ou robôs acionados por IA, melhorando sua capacidade de aprendizado e utilidade.

【Resumo AiBase:】
🌐 Capacidade multimodal: O Magma pode processar vários tipos de dados, como imagens, vídeos e texto, melhorando as funções dos assistentes inteligentes.
🤖 Aplicativos inteligentes: Os usuários podem usar o Magma para fazer pedidos automaticamente, consultar o clima e controlar robôs físicos.
📚 Adaptação de aprendizado: O Magma ajuda os robôs a aprender novas tarefas e gera guias operacionais para assistentes virtuais, melhorando sua praticidade.
Link de detalhes:https://microsoft.github.io/Magma/

8、Atualização da concorrência com DeepSeek e Claude! A pesquisa profunda do OpenAI é lançada para todos os usuários pagos do ChatGPT

O OpenAI expandiu recentemente seu recurso de pesquisa profunda para todos os usuários do ChatGPT Plus, Team, Education e Enterprise. Este recurso é considerado o assistente de IA mais transformador desde o ChatGPT, capaz de realizar tarefas de pesquisa complexas e gerar relatórios profissionais. Ao mesmo tempo, a DeepSeek chinesa está desafiando o modelo de negócios do OpenAI por meio do lançamento de novos modelos de código aberto, intensificando a competição de mercado. Esta tecnologia apresenta um desempenho excepcional na melhoria da eficiência, mas também enfrenta desafios na colaboração com especialistas humanos. As empresas precisam rever seus fluxos de trabalho de informações para usar esta tecnologia de forma mais eficaz.

【Resumo AiBase:】
💻 O OpenAI expandiu o recurso de pesquisa profunda para vários níveis de usuários, melhorando a capacidade de pesquisa do assistente de IA.
🔍 A DeepSeek chinesa está desafiando o modelo de negócios de assinatura do OpenAI por meio do lançamento de novos modelos de código aberto.
📈 A pesquisa profunda criou novas oportunidades de negócios entre eficiência e limitações, levando as empresas a remodelar os processos de tratamento de informações.

9、O PhotoDoodle AI transforma suas fotos em obras de arte fantásticas com apenas alguns prompts

Desenvolvido em conjunto pela ByteDance e equipes de pesquisa de universidades na China e em Singapura, o PhotoDoodle redefine a criação de imagens usando o modelo Flux.1. O sistema aprende estilos artísticos a partir de um pequeno número de amostras e executa instruções de edição com precisão, aumentando muito as possibilidades de expressão criativa. As tecnologias principais incluem clonagem de codificação posicional, garantindo que novos elementos sejam integrados naturalmente na imagem original. A equipe de pesquisa também está explorando métodos de treinamento de imagem única mais eficientes.

【Resumo AiBase:】
🖌️ O PhotoDoodle é baseado no modelo Flux.1 e pode aprender estilos artísticos a partir de um pequeno número de amostras e executar instruções de edição.
✨ A tecnologia de clonagem de codificação posicional permite que a IA se lembre da posição de cada pixel, garantindo que novos elementos sejam integrados naturalmente no fundo.
📊 A equipe de pesquisa lançou um conjunto de dados contendo seis estilos artísticos e está explorando métodos de treinamento de imagem única mais eficientes.
Link de detalhes:https://github.com/showlab/PhotoDoodle

10、O OpenAI disponibiliza gratuitamente o modo de bate-papo de voz avançado do ChatGPT

AI Daily

AI Diário: Modelo de vídeo gerado por texto Wanxiang 2.1 da Alibaba de código aberto; Quantficação de formas fantásticas responde ao lançamento antecipado do modelo DeepSeek-R2; Teste de convite para usuários do Baidu "Miada"

站长之家

Este artigo é do AIbase Daily