Boletim Diário de IA: Nova versão do GPT-4o lançada; Míngbi Intelligence lança versão para celular de código aberto do “GPT-4V”; Huawei lança nova estrutura de pessoa digital 3D EmoTalk3D; Alibaba lança fluxo de trabalho de pôsteres para os momentos olímpicos

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo de IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Clique para saber mais:https://top.aibase.com/

1、Desenvolvedores em festa! Nova versão do GPT-4o lançada, API mais rápida e barata

A OpenAI lançou recentemente um novo recurso de saída estruturada, projetado para fazer com que a saída gerada pelo modelo siga estritamente o padrão JSON fornecido pelo desenvolvedor, melhorando a confiabilidade e a correspondência da saída. O lançamento deste recurso fornece uma base importante para os desenvolvedores construírem aplicativos confiáveis, simplificando o processo de desenvolvimento e ajudando os desenvolvedores a criar aplicativos excelentes com mais facilidade.

【Resumo AiBase:】
🌟 O recurso de saída estruturada torna a saída do modelo mais confiável, seguindo o padrão JSON fornecido pelo desenvolvedor.
🔍 O novo modelo gpt-4o-2024-08-06 obteve uma pontuação perfeita de 100% na avaliação de padrões JSON complexos.
🔧 Os SDKs Python e Node foram atualizados para suportar saída estruturada, simplificando o fluxo de trabalho dos desenvolvedores.
Link para detalhes:https://openai.com/index/introducing-structured-outputs-in-the-api/

2、Mobiência inteligente de código aberto MiniCPM-V2.6 pode executar "GPT-4V" em telefones celulares

O MiniCPM-V2.6 é um modelo de IA multimodal de ponta, com apenas 8B de parâmetros, mas alcançou resultados SOTA em três itens: compreensão de imagem única, imagens múltiplas e vídeo com menos de 20B de parâmetros, comparável ao GPT-4V. Este modelo superou completamente as capacidades essenciais de compreensão de imagem única, imagens múltiplas e vídeo em dispositivos de ponta, com alta densidade de pixels e eficiência de operação, suportando várias linguagens e estruturas de inferência.

【Resumo AiBase:】
🚀 O MiniCPM-V2.6 alcançou resultados SOTA em três itens: compreensão de imagem única, imagens múltiplas e vídeo com menos de 20B de parâmetros, comparável ao GPT-4V.
💡 O modelo possui alta densidade de pixels e eficiência de operação, alcançando alta eficiência de operação em dispositivos de ponta.
🌐 O MiniCPM-V2.6 suporta várias linguagens e estruturas de inferência, expandindo-se de imagens únicas para imagens múltiplas e vídeos através da capacidade de OCR.
Link para detalhes:
GitHub: https://github.com/OpenBMB/MiniCPM-V
HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6
Tutoriais de implantação llama.cpp、ollama、vllm:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
Endereço de código aberto da série MiniCPM:
https://github.com/OpenBMB/MiniCPM

3、Huawei e Fudan se unem para criar uma nova estrutura de avatar digital 3D EmoTalk3D: expressões faciais realistas e ricas de alegria, raiva, tristeza e alegria

Uma equipe de pesquisa da Universidade de Nanjing, Universidade Fudan e Laboratório Huawei Noah's Ark criou em conjunto a estrutura EmoTalk3D, resolvendo os problemas de inconsistência em múltiplas perspectivas e falta de expressividade emocional. Eles propuseram um novo método para a síntese de avatares digitais emocionais controláveis, construíram uma estrutura de mapeamento de voz para geometria e para aparência, e estabeleceram o conjunto de dados EmoTalk3D.

【Resumo AiBase:】
💥 Propõe um novo método para a síntese de avatares digitais emocionais controláveis.
🎯 Constrói uma estrutura de mapeamento "de voz para geometria e para aparência".
👀 Estabelece o conjunto de dados EmoTalk3D e prepara-se para disponibilizá-lo.
Link para detalhes:https://nju-3dv.github.io/projects/EmoTalk3D/

4、O Aliyun PAI Artlab adiciona um fluxo de trabalho de pôsteres de momentos de destaque olímpicos

O ComfyUI do Aliyun PAI Artlab adicionou um fluxo de trabalho de pôsteres de momentos de destaque olímpicos. Os usuários podem gerar pôsteres temáticos olímpicos personalizados em apenas três etapas. Os usuários precisam primeiro se registrar no site oficial da Aliyun e concluir a verificação de identidade, em seguida, acessar a plataforma PAI ArtLab, receber recursos gratuitos e carregar o processo olímpico através do ComfyUI para desbloquear mais designs de pôsteres.

【Resumo AiBase:】
🌟 Os usuários podem gerar pôsteres temáticos olímpicos personalizados em apenas três etapas.
🚀 É necessário carregar dados de imagem, carregar e ajustar o modelo de IA, ajustar o prompt do conteúdo gerado, salvar o fluxo de trabalho e gerar um arquivo json.
💡 Outros usuários podem gerar pôsteres rapidamente usando o arquivo json gerado, permitindo compartilhamento e troca.
Entrada do produto:https://x.sm.cn/5hd9PfM
Detalhes aqui:https://www.aibase.com/zh/news/10857

5、O assistente de IA Yuanbao da Tencent é lançado com leitura aprofundada de textos longos, suportando entrada de até quase 500.000 caracteres

O assistente de IA Yuanbao da Tencent lançou a função de leitura aprofundada de textos longos. Após o upload de conteúdo profissional, os usuários podem entrar no modo de leitura aprofundada, que fornece uma visão geral do conteúdo principal, análise modular e gráficos resumidos, ajudando os usuários a entender rapidamente as informações essenciais. Usando a capacidade de processamento do grande modelo de linguagem da Tencent, ele suporta entrada de até quase 500.000 caracteres, gerando conteúdo com imagens e texto. Os usuários podem avaliar a qualidade da publicação, visualizar gráficos profissionais e revisar o conteúdo de leitura aprofundada offline. O grande modelo de linguagem da Tencent foi totalmente aberto, mostrando uma capacidade excepcional de compreensão multimodal.

【Resumo AiBase:】
📚 A função de leitura aprofundada de textos longos fornece um modo de leitura aprofundada, visão geral do conteúdo principal, análise modular e gráficos resumidos.
🔍 Usando a capacidade de processamento do grande modelo de linguagem da Tencent, ele suporta entrada de até quase 500.000 caracteres, gerando conteúdo com imagens e texto.
💡 Os usuários podem avaliar a qualidade da publicação, visualizar gráficos profissionais e revisar o conteúdo de leitura aprofundada offline.

6、Plataforma aberta Kimi do lado escuro da lua: custo de armazenamento em cache de contexto reduzido em 50%

A plataforma aberta Kimi anunciou uma redução de 50% no custo de armazenamento em cache de contexto, oferecendo aos usuários um serviço mais econômico. O cache de contexto é uma tecnologia eficiente de gerenciamento de dados que pode melhorar a eficiência do sistema e economizar tempo.

【Resumo AiBase:】
🔑 Custo de armazenamento em cache de contexto reduzido em 50%, de 10 yuans/1M tokens/min para 5 yuans/1M tokens/min.
⏳ O cache de contexto é uma tecnologia eficiente de gerenciamento de dados que pode armazenar antecipadamente uma grande quantidade de dados que podem ser solicitados com frequência, melhorando a eficiência do sistema.
💡 O cache de contexto é especialmente adequado para cenários com solicitações frequentes e referências repetidas a uma grande quantidade de contexto inicial, podendo reduzir o custo de modelos de texto longo e melhorar a eficiência.

7、A Figure lança o robô ChatGPT físico superpoderoso Figure02

O robô Figure02, recém-lançado pela Figure, marca um grande avanço na tecnologia de IA, sinalizando uma nova era na interação humano-computador. O robô foi totalmente renovado em hardware e software, com operação manual flexível, poderosa capacidade de visão de diálogo e capacidade de raciocínio de cálculo três vezes maior.

【Resumo AiBase:】
🤖 O robô Figure02 é um grande avanço na tecnologia de IA, sinalizando uma nova era na interação humano-computador.
🔊 Função de diálogo de voz, sistema de visão avançado e design revolucionário de mão são suas características principais.
💡 O Figure02 integra o grande modelo OpenAI, combinando comandos de voz e informações visuais para raciocínio profundo.

8、IA designando a fabricação de Yiwu: IA designando armadura vestível para as Olimpíadas de Paris

Este artigo apresenta a história de uma armadura vestível projetada por IA e fabricada em Yiwu que causou sensação nas ruas de Paris, mostrando o cenário de injeção de nova vitalidade na indústria de manufatura de Yiwu. O produto de armadura vestível projetado com tecnologia de IA causou sensação em Paris, provando a força inovadora e a sensibilidade de mercado de Yiwu.

【Resumo AiBase:】
🔥 A armadura vestível projetada por IA causou sensação em Paris, tornando-se um novo queridinho da moda e injetando vitalidade na manufatura de Yiwu.
💡 LumiNail é um produto de design de armadura vestível de IA simples, porém poderoso, que aumenta a eficiência do design e injeta vitalidade criativa.
🚀 Os comerciantes de Yiwu estão começando a tentar a produção assistida por IA, com mais de 10.000 comerciantes usando tecnologia de IA para otimizar suas operações e abrir novas direções de desenvolvimento.

9、O Laboratório de Inteligência Artificial de Xangai lança uma nova versão do modelo da série Xuesheng·Puyu InternLM2.5

No Fórum Principal de Ciência de Vanguarda da WAIC de 2024, em 4 de julho, o Laboratório de Inteligência Artificial de Xangai lançou uma nova versão do modelo da série Xuesheng·Puyu, o InternLM2.5. Esta versão aprimorou completamente a capacidade de raciocínio em cenários complexos, suportando contextos extra longos e realizando pesquisas independentes na internet para integrar informações. As versões de parâmetros do modelo incluem 1.8B, 7B e 20B, adaptando-se a diferentes cenários de aplicação e necessidades de desenvolvedores.

【Resumo AiBase:】
⚙️ O InternLM2.5 lançou modelos de três versões de parâmetros, incluindo 1.8B, 7B e 20B, atendendo às necessidades de diferentes cenários de aplicação.
🔍 O InternLM2.5 iterou em várias tecnologias de síntese de dados, melhorando significativamente a capacidade de raciocínio do modelo, especialmente com uma precisão de 64,7% no conjunto de avaliação matemática MATH.
🛠️ O InternLM2.5 realizou uma integração perfeita com estruturas de inferência e ajuste fino a jusante, incluindo a estrutura de ajuste fino XTuner, a estrutura de inferência LMDeploy e outras estruturas comunitárias.
Link para detalhes:https://internlm.intern-ai.org.cn

10、Empresa israelense lança o modelo de reconhecimento de voz de código aberto Whisper Medusa com 50% de aumento de velocidade

O modelo de reconhecimento de voz de código aberto Whisper Medusa, lançado pela aiOla, alcançou um grande avanço na velocidade de processamento, sendo 50% mais rápido que o modelo Whisper da OpenAI, atraindo ampla atenção da indústria. Esta inovação terá um profundo impacto no desenvolvimento da tecnologia de reconhecimento de voz, abrindo novas possibilidades para a aplicação da inteligência artificial no campo do reconhecimento de voz.

【Resumo AiBase:】
⚙️ A principal inovação do Whisper Medusa está na introdução do mecanismo de atenção multi-cabeça, permitindo que o modelo preveja dez tokens por vez, melhorando significativamente a velocidade de previsão de voz e o tempo de execução de geração.
🔍 O Whisper Medusa não sacrificou o desempenho ao aumentar a velocidade, o sistema principal é construído com base no Whisper, garantindo a precisão e estabilidade do modelo.
🎓 A aiOla usa um método de aprendizado de máquina fracamente supervisionado para treinar o Whisper Medusa, melhorando ainda mais a eficiência de aprendizado e a precisão do modelo.
Link para detalhes:https://github.com/aiola-lab/whisper-medusa

11、Nova senha de tráfego? Vídeo de IA com falhas inesperadamente popular: uma cena estranha atrai 20 milhões de visualizações

O conteúdo gerado por IA já se infiltrou em nossas vidas, mas um vídeo recente de IA com falhas tornou-se um sucesso na internet, atraindo quase 20 milhões de visualizações, revelando a atitude complexa das pessoas em relação à tecnologia de IA. Este vídeo mostra o lado fora de controle da tecnologia de geração de imagens de IA, causando uma forte reação dos internautas. A atitude do público em relação à tecnologia de IA está passando por mudanças sutis, sendo necessário manter o senso de humor e uma mente aberta.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Boletim Diário de IA: Nova versão do GPT-4o lançada; Míngbi Intelligence lança versão para celular de código aberto do “GPT-4V”; Huawei lança nova estrutura de pessoa digital 3D EmoTalk3D; Alibaba lança fluxo de trabalho de pôsteres para os momentos olímpicos

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Boletim Diário de IA: OpenAI lança três novos modelos de voz; Busca do Kuaishou integra totalmente o DeepSeek R1; Claude lança recurso de busca na web

OpenAI lança novo modelo de transcrição de voz, gpt-4o-transcribe, com precisão aprimorada

OpenAI Lança o GPT-4O-Audio-Preview: Áudio que 'Entende' Emoções!

Novo modelo OpenAI gpt-4o-2024-08-06 e gpt-4o-mini com suporte a saída estruturada

OpenAI lança novo modelo gpt-4o-64k-output-alpha: GPT-4o API agora suporta até 64K de saída