Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais assuntos do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Saiba mais: https://top.aibase.com/

1、 A Keling AI lança a versão 1.5: vídeos mais estáveis e em alta definição, pessoas voando sem distorções faciais

A versão 1.5 recém-lançada da Keling AI traz novos recursos e melhorias impressionantes, melhorando significativamente a quantidade e a qualidade da geração de vídeos e expandindo os limites da aplicação da IA ​​na área de mídia criativa. A qualidade da imagem foi significativamente aprimorada, com suporte a vídeos HD de 1080p de 10 segundos, a capacidade de resposta do texto foi aprimorada, a estética foi aprimorada, a consistência dos personagens foi fortalecida e a consistência dos objetos foi melhorada.

【Resumo AiBase:】

🚀 A capacidade de geração de vídeo da versão 1.5 foi significativamente aprimorada, com suporte à geração de até 4 vídeos simultaneamente. A função de geração de vídeo a partir de imagens suporta a geração de vídeos HD de 1080p com duração de até 10 segundos.

🎨 A versão 1.0 adicionou a função "pincel de movimento", fornecendo controle de movimento mais preciso e representação de movimento mais vívida, expandindo o espaço criativo para criadores de vídeo.

💡 A capacidade de compreensão de texto foi significativamente aprimorada. A versão 1.5 apresentou melhorias significativas na qualidade da imagem, desempenho dinâmico e conformidade com instruções de texto, com uma melhoria geral de 95%.

Link para detalhes: https://top.aibase.com/tool/keling-ai

2、 A ByteDance lança a ferramenta de geração de música Seed-Music, que suporta entrada diversificada e controle preciso

Recentemente, a ByteDance lançou uma nova ferramenta de criação musical, a Seed-Music, que permite aos usuários gerar música de várias maneiras, como descrição de texto, referência de áudio, partituras e até mesmo prompts de voz. Este modelo mágico combina modelos de linguagem auto-regressivos e modelos de difusão para gerar obras musicais de alta qualidade, fornecendo ao mesmo tempo controle preciso. Os usuários podem compor letras, modificar melodias e até mesmo enviar clipes de voz para serem transformados em canções, oferecendo funcionalidades poderosas e eficientes.

【Resumo AiBase:】

🎵 Seed-Music combina modelos de linguagem auto-regressivos e modelos de difusão para gerar obras musicais de alta qualidade, permitindo aos usuários controlar precisamente os detalhes da música.

🎶 As funções incluem geração vocal e instrumental, síntese vocal, conversão vocal e edição musical, atendendo às necessidades de diferentes usuários.

🎼 A arquitetura do Seed-Music é dividida em módulos de aprendizado de representação, geração e renderização, gerando música de alta qualidade por meio de entrada multi-modal.

Link para detalhes: https://team.doubao.com/en/special/seed-music

3、 A Ali Tongyi Qianwen lança modelos de código aberto da série Qwen2.5: o Qwen2-VL-72B é comparável ao GPT-4

A equipe da Tongyi Qianwen anunciou o lançamento de modelos de código aberto da série Qwen2.5, incluindo o modelo de linguagem universal Qwen2.5, Qwen2.5-Coder e Qwen2.5-Math, pré-treinados em um conjunto de dados de 18T tokens, melhorando a aquisição de conhecimento, programação e habilidades matemáticas. Suporta processamento de texto longo, gerando até 8K tokens de conteúdo, mantendo o suporte para mais de 29 idiomas. Oferece versões de vários tamanhos e utiliza a licença Apache2.0. O desempenho do modelo Qwen2-VL-72B é comparável ao do GPT-4, com melhorias significativas na execução de instruções, geração de texto longo, compreensão de dados e saída estruturada.

image.png

【Resumo AiBase:】

🚀 Os modelos da série Qwen2.5 são de código aberto, incluindo modelos de linguagem universal e modelos de domínio especializado, melhorando a aquisição de conhecimento, programação e habilidades matemáticas.

💡 Os modelos suportam processamento de texto longo, gerando até 8K tokens de conteúdo e oferecendo suporte para mais de 29 idiomas.

💻 O modelo Qwen2-VL-72B obteve melhorias significativas, apresentando excelente desempenho na execução de instruções, geração de texto longo, compreensão de dados e saída estruturada.

Link para detalhes: https://modelscope.cn/studios/qwen/Qwen2.5

4、 O modelo de geração de vídeo da Ali Tongyi Wanxiang, "AI gera vídeo", é oficialmente lançado

O modelo de geração de vídeo AI Tongyi Wanxiang, da Alibaba, foi oficialmente lançado, com uma poderosa capacidade de geração dinâmica de imagens visuais, suportando vários estilos artísticos e geração de conteúdo de vídeo com qualidade cinematográfica. Este modelo otimizou a representação de elementos chineses, suporta entrada multilíngue e geração de resolução variável, possui amplas aplicações, oferece serviço gratuito e possui função de geração de áudio, simplificando o processo de produção de vídeo.

image.png

【Resumo AiBase:】

⚙️ O modelo de geração de vídeo AI Tongyi Wanxiang possui uma poderosa capacidade de geração dinâmica de imagens visuais, suportando vários estilos artísticos e geração de conteúdo de vídeo com qualidade cinematográfica.

🌟 Otimizou a representação de elementos chineses, apresentando vantagens únicas na geração de conteúdo de estilo chinês, suportando entrada multilíngue e geração de resolução variável para atender às necessidades de diferentes usuários.

🎬 Oferece serviço gratuito, suporta a geração de áudio para conteúdo de vídeo, simplifica o processo de produção de vídeo, realiza sincronização de áudio e vídeo e melhora a eficiência criativa.

Link para detalhes: https://tongyi.aliyun.com/wanxiang/wanxvideo

5、 Lançamento da Tencent! O modelo de áudio AI EzAudio transforma texto em som realista em segundos

Recentemente, o modelo EzAudio, desenvolvido em conjunto pela Universidade Johns Hopkins e o laboratório de IA da Tencent, marca um grande avanço na tecnologia de áudio. Este modelo gera amostras de áudio de alta qualidade por meio de arquitetura e tecnologia inovadoras, possuindo amplo potencial de aplicação. Com o desenvolvimento da tecnologia, questões éticas e de uso responsável se tornam cada vez mais evidentes. O código de pesquisa aberto do EzAudio também fornece uma ampla oportunidade para testar os riscos e benefícios futuros.

image.png

【Resumo AiBase:】

🌟 EzAudio é um novo modelo de geração de áudio a partir de texto desenvolvido em parceria pela Universidade Johns Hopkins e a Tencent, marcando um grande avanço na tecnologia de áudio.

🎧 Este modelo gera amostras de áudio de alta qualidade por meio de arquitetura e tecnologia inovadoras, superando os modelos de código aberto existentes em termos de qualidade e possuindo amplo potencial de aplicação.

⚖️ Com o desenvolvimento da tecnologia, questões éticas e de uso responsável se tornam cada vez mais evidentes. O código de pesquisa aberto do EzAudio também fornece uma ampla oportunidade para testar os riscos e benefícios futuros.

Link para detalhes: https://huggingface.co/spaces/OpenSound/EzAudio

6、 A Giant Network lança seus modelos de personagens GiantGPT e o modelo de voz BaiLing-TTS

Na cerimônia de abertura da Conferência Cloud Computing de 2024, a Giant Network exibiu seus mais recentes resultados na área de "jogos + IA", incluindo aplicativos de modelos de grande porte como GiantGPT e BaiLing-TTS, bem como novas tecnologias como o personagem digital de IA e a plataforma de pintura de IA Giant Mojing. A empresa exibiu modelos de grande porte altamente otimizados para negócios de jogos e modelos de voz que suportam vários dialetos, e lançou uma nova identidade de marca, abrindo inscrições para testes internos da plataforma de pintura de IA. A Giant Network também exibiu tecnologia de personagens digitais de interação em tempo real de alta precisão, expressando sua determinação em continuar cultivando a área de "jogos + IA".

【Resumo AiBase:】

🎮 GiantGPT é um modelo de grande porte vertical focado em negócios de jogos, treinado combinando dados próprios e dados públicos da internet, otimizando profundamente as capacidades básicas.

🗣 BaiLing-TTS é um modelo de voz de grande porte que suporta a mistura de vários dialetos de mandarim e pode gerar fala em vários dialetos.

🖌 A plataforma de pintura de IA Giant Mojing é uma plataforma em nuvem integrada que suporta colaboração em equipe e processamento em massa de conteúdo artístico.

7、 O modo de voz avançado do ChatGPT pode ser lançado em 24 de setembro

O modo de voz avançado do ChatGPT será lançado em 24 de setembro, oferecendo aos usuários uma experiência de interação sem precedentes. Este recurso gera respostas de áudio realistas, melhorando a naturalidade e a imersão da interação homem-máquina. A confiabilidade das informações de atualização foi comprovada, e alguns usuários de dispositivos móveis podem experimentar o modo de voz atualizado em 24 de setembro. A interface do aplicativo ChatGPT para macOS foi alterada, a interface do modo de voz é mais rica e novos botões convenientes foram adicionados. Alguns usuários podem compartilhar mais informações de contexto com o ChatGPT, permitindo uma experiência de conversa mais coerente e personalizada.

【Resumo AiBase:】

⚙️ O modo de voz avançado será lançado em 24 de setembro, melhorando a experiência de interação.

🔊 Gera respostas de áudio realistas, melhorando a naturalidade e a imersão da interação homem-máquina.

🌌 A interface do aplicativo ChatGPT para macOS foi alterada, novos botões convenientes foram adicionados, oferecendo uma experiência visual mais rica.

8、 O YouTube incorpora o modelo DeepMind Veo, dando asas à imaginação dos criadores

O YouTube anunciou oficialmente a integração do modelo Veo do Google DeepMind em sua plataforma de vídeos curtos, YouTube Shorts, abrindo uma nova era de criação de vídeos curtos impulsionada pela IA. Esta medida não apenas fornece aos criadores ferramentas criativas sem precedentes, mas também transforma completamente a forma como os usuários interagem com a plataforma.

【Resumo AiBase:】

✨ O recurso Dream Screen combina os modelos Imagen3 e Veo para criar um ambiente de criação inteligente para os criadores.

🌟 O YouTube garante a transparência e a confiabilidade do conteúdo gerado por IA por meio da tecnologia SynthID.

💡 O programa Made on YouTube 2024 lança ferramentas de criação impulsionadas por IA, como assistente de inspiração e ferramentas inteligentes de dublagem automática, apoiando os criadores de conteúdo de forma abrangente.

9、 Relatório semestral de insights sobre aplicativos de agentes de IA de 2024: aplicativos de IA têm mais de 66 milhões de usuários ativos mensais

O relatório semestral de aplicativos de agentes de IA de 2024 mostra que o número de usuários ativos mensais de aplicativos de IA ultrapassou 66 milhões, demonstrando o rápido desenvolvimento e popularização da tecnologia de IA no nível de aplicativo. O relatório indica que os aplicativos de IA já formaram oito categorias de métodos de jogo e que os caminhos de comercialização já foram abertos. Os serviços de agentes inteligentes resolvem as necessidades dos usuários, o ecossistema WeChat é um canal importante e os modelos de negócios de agentes inteligentes estão sendo explorados. Os agentes inteligentes estão maduros em cenários de educação e aprendizagem, e a popularidade dos principais agentes inteligentes é alta. Os aplicativos de agentes de IA tornaram-se um importante ramo da Internet móvel, oferecendo aos usuários uma experiência rica e conveniente e fornecendo nova força motriz e direção para o desenvolvimento do setor. Espera-se que os aplicativos de agentes de IA desempenhem um papel mais importante no futuro.

image.png

【Resumo AiBase:】

📊 O número de usuários ativos mensais de aplicativos de IA ultrapassou 66 milhões, demonstrando o rápido desenvolvimento e popularização da tecnologia de IA.

🎮 Os aplicativos de IA formaram oito categorias de métodos de jogo e os caminhos de comercialização foram abertos.

📈 Os serviços de agentes inteligentes resolvem as necessidades dos usuários, o ecossistema WeChat é um canal importante e os modelos de negócios estão sendo explorados.

10、 O LinkedIn usa silenciosamente os dados do usuário para treinar IA, exigindo dupla opção de exclusão

Recentemente, foi revelado que o LinkedIn começou a usar os dados do usuário para treinar modelos de inteligência artificial generativa sem notificar previamente os usuários. Os usuários precisam desativar as opções relevantes nas configurações da conta para optar por não participar, mas isso afeta apenas o uso de dados futuros. O LinkedIn também mencionou que outras ferramentas de aprendizado de máquina exigem que os usuários preencham formulários adicionais para desativar completamente o uso de dados.

【Resumo AiBase:】

🔒 O LinkedIn usa os dados do usuário para treinar modelos de IA por padrão, e os usuários precisam optar por não participar ativamente.

✋ Os usuários precisam desativar as opções nas configurações da conta, o que afeta apenas o uso de dados futuros.

📄 Além da IA ​​generativa, o LinkedIn também possui outras ferramentas de aprendizado de máquina, exigindo que os usuários preencham formulários adicionais para desativar completamente o uso de dados.

11、 US$ 23 milhões em financiamento! O Fal.ai deixa 500.000 desenvolvedores loucos, gerando 50 milhões de conteúdos de mídia por dia