Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Saiba mais: https://top.aibase.com/

1、Lançamento oficial das versões 4.0o1 e 4o do modelo de IA TianGong da Kunlun Wanwei

Em 6 de janeiro de 2025, o grupo Kunlun Wanwei lançou suas mais recentes versões do "modelo de IA TianGong 4.0", a 4.0o1 e a 4o, marcando um grande avanço no campo da inteligência artificial. A versão 4.0o1 é o primeiro modelo doméstico com capacidade de raciocínio lógico em chinês, e após atualizações tecnológicas, consegue lidar com vários desafios de raciocínio. Já a versão 4o é um modelo multimodal, com capacidade de expressão emocional e multilíngue, oferecendo aos usuários uma experiência de conversa mais natural.

image.png

【Resumo AiBase:】

🧠 A versão 4.0o1 possui capacidade de raciocínio lógico em chinês, e após atualizações tecnológicas, consegue lidar com desafios de raciocínio em matemática, códigos e outros.

💬 A versão 4o é um modelo multimodal, oferecendo expressão emocional e o assistente de conversação em tempo real Skyo, com resposta rápida.

🌐 O lançamento de ambos os modelos impulsiona o progresso tecnológico e a expansão de aplicações da Kunlun Wanwei na área de IA.

Link para detalhes: https://www.tiangong.cn/

2、O novo assistente de IA de Luo Yonghao, "J1Assistant", é lançado oficialmente, liderando uma nova era de inteligência com interação por voz

O projeto de inteligência artificial de Luo Yonghao, Jarvis, lançou o software assistente de IA chamado "J1Assistant", atualmente disponível apenas para Android no exterior. O destaque do software é sua função de entrada de áudio, permitindo que os usuários enviem mensagens, pesquisem informações ou interajam com o modelo de IA facilmente por voz. O J1Assistant integra o próprio modelo de IA do Jarvis e possui uma função de lembrete, ajudando os usuários a gerenciar tarefas diárias.

【Resumo AiBase:】

🎤 O J1Assistant apresenta uma função de entrada de áudio, permitindo que os usuários operem por voz, melhorando a experiência de interação.

📅 Integra o próprio modelo de IA do Jarvis, fornecendo respostas úteis e uma função de lembrete, ajudando os usuários a gerenciar tarefas.

🌍 Atualmente, apenas a versão Android é compatível. No futuro, espera-se o lançamento de mais recursos e plataformas para atender às necessidades dos usuários.

3、iQiyi processa MiniMax: Modelo de IA supostamente infringe direitos autorais, exigindo indenização de 100.000 yuans

A mídia informou que o iQiyi entrou com uma ação judicial, acusando a empresa de IA iniciante MiniMax de infringir seus direitos autorais durante o treinamento do modelo. A MiniMax é acusada de usar materiais do iQiyi sem autorização, gerando conteúdo infrator. O iQiyi exige que a MiniMax pare imediatamente a infração e pague uma indenização de 100.000 yuans. A MiniMax pode argumentar que os materiais são de acesso público ou que foram inseridos pelo usuário, buscando isenção legal. O caso ainda não teve resposta pública de ambas as partes, e a disputa legal ainda está em desenvolvimento.

【Resumo AiBase:】

⚖️ O iQiyi processou a MiniMax por violação de direitos autorais.

📜 A MiniMax é acusada de usar materiais protegidos por direitos autorais do iQiyi sem autorização para treinar seu modelo.

💰 O iQiyi exige que a MiniMax pare a infração e pague uma indenização de cerca de 100.000 yuans.

4、Desenvolvido pela equipe da Alibaba! Tecnologia de transferência de maquiagem SHMT: Fornece uma imagem de referência de maquiagem e aplica a maquiagem em você

O modelo SHMT, recentemente lançado pelo Alibaba Damo Academy, utiliza modelos de difusão latente para transferir com precisão efeitos de maquiagem e foi aceito pela conferência acadêmica internacional de ponta NeurIPS2024. Essa tecnologia, por meio de uma simples imagem de referência de maquiagem e uma foto do personagem alvo, consegue gerar rapidamente efeitos de maquiagem, impulsionando significativamente o desenvolvimento de aplicativos de maquiagem e processamento de imagens.

image.png

【Resumo AiBase:】

🎓 O modelo SHMT usa modelos de difusão latente para transferir efeitos de maquiagem e foi aceito pelo NeurIPS2024.

🔧 A equipe fornece código aberto completo e modelos pré-treinados para facilitar a aplicação e melhoria por pesquisadores.

📂 A preparação de dados e o ajuste de parâmetros são cruciais; a pesquisa fornece instruções detalhadas sobre o processo de operação e a estrutura de diretórios.

Link para detalhes: https://github.com/Snowfallingplum/SHMT

5、ByteDance lança código aberto para o novo modelo de IA LatentSync, controlando com precisão a sincronização labial

O LatentSync, lançado pela ByteDance, é uma tecnologia avançada de sincronização labial de ponta a ponta que usa um modelo de difusão latente com condicionamento de áudio para alcançar um casamento preciso entre os movimentos labiais de uma pessoa em um vídeo e o áudio. Essa tecnologia, por meio da introdução da tecnologia TREPA, melhora a consistência temporal e otimiza a convergência do SyncNet, melhorando significativamente a precisão da sincronização labial.

【Resumo AiBase:】

🎤 Estrutura de ponta a ponta: O LatentSync não precisa de representação de movimento intermediária, gerando movimentos labiais diretamente a partir do áudio.

🌟 Geração de alta qualidade: Usa o Stable Diffusion para gerar vídeos de fala dinâmicos e realistas, melhorando o efeito visual.

⏱️ Consistência temporal: Melhora a consistência temporal entre os quadros de vídeo por meio da tecnologia TREPA, garantindo a precisão da sincronização labial.

Link para detalhes: https://github.com/bytedance/LatentSync

6、Meta lança nova tecnologia de camada de memória: ultrapassa as limitações de parâmetros e melhora significativamente a precisão factual da IA

A Meta lançou recentemente uma tecnologia inovadora de camada de memória, com o objetivo de melhorar a precisão factual de grandes modelos de linguagem e expandir a escala de parâmetros. Essa tecnologia, por meio de um mecanismo de pesquisa de chave-valor treinável, melhora significativamente a capacidade de armazenamento e recuperação de informações do modelo. Os resultados experimentais mostram que os modelos equipados com a camada de memória têm um desempenho superior em várias tarefas, especialmente em tarefas factuais, com uma melhoria significativa no desempenho.

image.png

【Resumo AiBase:】

🧩 A tecnologia de camada de memória melhora a precisão factual por meio de um mecanismo de ativação esparsa, atingindo uma escala de 128 bilhões de parâmetros.

🚀 Experimentos mostram que os modelos equipados com a camada de memória superam os modelos densos tradicionais em tarefas como perguntas e respostas factuais.

🔧 Os pesquisadores otimizaram a camada de memória de várias maneiras, melhorando o desempenho e a estabilidade, demonstrando uma forte capacidade de expansão.

Link para detalhes: https://arxiv.org/pdf/2412.09764

7、Yukai lança o robô de companhia "Mirumi": Peludo e proporciona uma experiência emocional semelhante à de um bebê

A Yukai Engineering é conhecida por seus produtos robóticos inovadores. Seu lançamento mais recente, o Mirumi, é uma pequena bola peluda que cabe na carteira e que se vira espontaneamente para observar as pessoas ao redor. Esse robô visa imitar a inocência e a alegria de um bebê, proporcionando uma experiência interativa agradável. O design do Mirumi é inspirado em yokais japoneses e, combinado com a tecnologia de detecção de movimento, exibe várias emoções, como curiosidade e timidez, destacando ainda mais a posição única da Yukai no campo dos robôs peculiares.

【Resumo AiBase:】

👶 Mirumi é uma pequena bola peluda que se vira espontaneamente para observar as pessoas ao redor, proporcionando uma sensação de alegria.

🤔 O robô expressa emoções por meio da detecção de movimento, imitando a inocência e a interação de um bebê.

🎉 O design do Mirumi é inspirado em yokais japoneses e visa recriar a alegria da interação com um bebê.

8、OpenAI começa a direcionar seus objetivos para a "superinteligência"

Sam Altman, CEO da OpenAI, anunciou em seu blog que a empresa dominou a tecnologia central para construir inteligência artificial geral (AGI) e que está direcionando seus objetivos para a superinteligência. Ele acredita que a superinteligência aumentará significativamente a velocidade das descobertas científicas e da inovação, impulsionando a prosperidade social. Apesar das limitações atuais da tecnologia, como o fenômeno de "alucinação" e os altos custos operacionais, Altman está confiante no futuro, acreditando que o progresso tecnológico mudará a linha do tempo.

【Resumo AiBase:】

🌟 Sam Altman, CEO da OpenAI, disse que a empresa dominou a tecnologia para construir AGI e está direcionando seus objetivos para a superinteligência.

🔍 AGI é definido como um sistema altamente autônomo que supera economicamente os humanos; o acordo entre OpenAI e Microsoft tem um acordo claro sobre isso.

🚀 Apesar das limitações atuais da tecnologia, Altman está confiante no desenvolvimento futuro, acreditando que a linha do tempo mudará com o progresso tecnológico.

9、Pesquisador chinês da Universidade de Harvard, Jeffrey Wang, junta-se à OpenAI, focando em pré-treinamento e inferência de modelos

Jeffrey Wang, pesquisador chinês da Universidade de Harvard, juntou-se recentemente à OpenAI, focando em pré-treinamento e inferência de modelos. Suas realizações acadêmicas e experiência de pesquisa chamaram muita atenção, especialmente suas contribuições nas áreas de aprendizado de máquina e privacidade. A entrada de Jeffrey não é apenas um passo importante em sua carreira, mas também demonstra a capacidade da OpenAI de atrair talentos de ponta, prenunciando um desenvolvimento florescente da pesquisa em IA no futuro.

image.png

【Resumo AiBase:】

🎓 Durante seu tempo na Universidade de Harvard, Jeffrey Wang participou ativamente da pesquisa em aprendizado de máquina e estatística, e lecionou cursos relacionados.

📄 Seus resultados de pesquisa foram publicados em várias conferências internacionais, discutindo questões de privacidade de modelos de linguagem e justiça de modelos de difusão.

🌟 A entrada de Jeffrey Wang demonstra a capacidade da OpenAI de atrair talentos de ponta, impulsionando o desenvolvimento do campo da IA.

10、A Microsoft planeja investir US$ 80 bilhões na construção de centros de dados de inteligência artificial no ano fiscal de 2025

A Microsoft planeja investir US$ 80 bilhões na construção de centros de dados especializados em lidar com cargas de trabalho de inteligência artificial no ano fiscal de 2025. Esse investimento visa acelerar o treinamento de modelos de IA e a implantação global de aplicativos em nuvem, mostrando a posição importante dos EUA na nova onda tecnológica. Com o rápido desenvolvimento da tecnologia de IA, o investimento da Microsoft não é apenas uma expansão de seus próprios negócios, mas também reflete a necessidade urgente de infraestrutura, fornecendo suporte poderoso para a transformação digital de mais setores no futuro.

【Resumo AiBase:】

💰 Mais da metade do financiamento será usado na construção nos EUA, destacando sua posição importante na tecnologia de IA.

🌐 A relação competitiva entre Microsoft e OpenAI está se tornando cada vez mais tensa, e isso pode afetar o cenário do setor no futuro.

⚡ Com o aumento da demanda por tecnologia de IA, a demanda por energia também está aumentando drasticamente, e os centros de dados enfrentam o risco de escassez de energia.

11、Essa capacidade é incrível! A IA pode "ouvir" os sinais de que uma bateria de lítio está prestes a pegar fogo

As baterias de íons de lítio estão presentes em todos os lugares em nossa vida cotidiana, mas o superaquecimento ou danos podem causar incêndios graves. Em 2023, houve um grande número de incêndios causados por baterias de bicicletas elétricas na cidade de Nova York, causando várias mortes. Para lidar com esse risco, uma equipe de pesquisa do NIST desenvolveu uma tecnologia de alerta de incêndio baseada em som que pode usar algoritmos de IA para identificar o som da ruptura da válvula de segurança da bateria e emitir um alerta cerca de dois minutos antes.

image.png

【Resumo AiBase:】

🔥 Uma equipe de pesquisa do NIST desenvolveu uma tecnologia de alerta de incêndio em baterias de lítio baseada em som, usando IA para identificar o som da ruptura da válvula de segurança.

🔊 O algoritmo treinado tem uma taxa de identificação de até 94%, mantendo a detecção eficiente mesmo com vários ruídos de interferência.

⏳ Espera-se que o novo detector de incêndio forneça um alerta antecipado de cerca de dois minutos, ajudando as pessoas a escapar a tempo.

12、Musk anuncia que o Grok3 será lançado em breve, com um aumento de dez vezes em sua capacidade!

Na área da inteligência artificial, Elon Musk mais uma vez se tornou o centro das atenções. Ele revelou nas redes sociais que o aguardado modelo Grok3 está prestes a ser lançado, com uma capacidade de computação dez vezes maior que a do Grok2. A série Grok tem recebido muita atenção desde seu lançamento, e embora o lançamento do Grok3 tenha sofrido alguns atrasos, a notícia mais recente de Musk certamente animou os usuários que esperam ansiosamente por ele.

【Resumo AiBase:】