Boletim Diário de IA: OpenAI lança a API o1-pro mais cara da história; Tencent lança novo modelo de raciocínio Huanyu T1; Modelo de vídeo Step-Video-TI2V da Jieyue Xingchen é de código aberto

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais assuntos do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Clique para saber mais: https://top.aibase.com/

1、O mais caro! OpenAI lança o modelo de IA atualizado o1-pro, com preço de geração dez vezes maior que o o1

A OpenAI lançou recentemente sua nova geração de modelos de IA, o o1-pro, projetado para fornecer capacidade de raciocínio aprimorada. No entanto, seu alto preço chamou a atenção. Os preços de entrada e geração do o1-pro são o dobro e dez vezes maiores, respectivamente, que o GPT-4.5 e o o1 comum. Apesar disso, a OpenAI tem grandes expectativas sobre seu desempenho, acreditando que ele poderá atender às necessidades dos desenvolvedores em tarefas complexas.

【AiBase destaca:】
💡 A OpenAI lança o novo modelo de IA o1-pro, com foco em aprimorar a capacidade de raciocínio.
💰 O preço do o1-pro é extremamente alto, com o custo de entrada duas vezes maior que o GPT-4.5 e o custo de geração dez vezes maior que o o1 comum.
🤔 O feedback inicial dos usuários sobre o o1-pro é misto, mas ele se mostra mais confiável em problemas de codificação e matemática.

2、Controle de movimento! Modelo de geração de vídeo a partir de imagem Step-Video-TI2V de código aberto da empresa Jieyue Xingchen

O modelo Step-Video-TI2V, lançado pela Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd., apresenta inovação significativa no campo da geração de vídeo a partir de imagem. Baseado no Step-Video-T2V com 30 bilhões de parâmetros, ele pode gerar vídeos de alta qualidade e possui controle sobre a amplitude do movimento e o movimento da câmera, sendo especialmente adequado para criação de animações e produção de vídeos curtos. Ao otimizar a consistência e a dinâmica da geração, o modelo oferece aos criadores opções mais flexíveis para atender às necessidades de vários tamanhos e efeitos.

【AiBase destaca:】
🚀 O modelo Step-Video-TI2V, baseado em 30 bilhões de parâmetros, pode gerar vídeos de 5 segundos e resolução 540P, com controle sobre a amplitude do movimento e o movimento da câmera.
🎨 O modelo apresenta excelente desempenho em efeitos de anime, sendo adequado para criação de animações e produção de vídeos curtos, com suporte para geração em vários tamanhos.
🔧 Através da introdução de condições de imagem e do módulo AdaLN, a consistência e o controle dinâmico da geração de vídeo em relação à imagem original foram aprimorados.
Link para mais detalhes: https://yuewen.cn/videos

3、A Tencent Hun Yuan apresenta nova ação! O novo modelo de raciocínio T1 será lançado na noite de 21 de março

A Tencent Hun Yuan anunciou que seu novo modelo de raciocínio T1 será oficialmente lançado em 21 de março, marcando uma iteração tecnológica e atualização de produto em sua área de modelos de IA de grande porte. Ao mesmo tempo, o modelo de IA de grande porte Tencent Hun Yuan entrou pela primeira vez no ranking global Top 15 do Chatbot Arena, demonstrando que sua capacidade tecnológica atingiu um nível internacional de liderança. O mercado espera que o modelo T1 aprimore sua capacidade de raciocínio, consolidando ainda mais a posição da Tencent na competição global de modelos de grande porte.

【AiBase destaca:】
🚀 A Tencent Hun Yuan lançará o novo modelo de raciocínio T1 em 21 de março, marcando uma atualização tecnológica.
🏆 O modelo de IA de grande porte Tencent Hun Yuan entrou pela primeira vez no ranking global Top 15 do Chatbot Arena, demonstrando sua capacidade tecnológica.
🌍 O mercado espera que o modelo T1 aprimore sua capacidade de raciocínio, consolidando a posição da Tencent na competição global.

4、Custo apenas um décimo! Open-Sora 2.0, IA de vídeo de código aberto, atinge qualidade de nível comercial

O Open-Sora2.0, lançado recentemente pela HPC-AI Tech, é um sistema revolucionário de IA de vídeo. Seu custo de treinamento é apenas um décimo do custo dos sistemas tradicionais, e sua qualidade de saída é comparável à de produtos comerciais. O sistema atingiu um aumento significativo na velocidade de treinamento por meio de um processo de treinamento em três estágios e um codificador automático eficiente, embora existam algumas limitações em termos de resolução e duração do vídeo. O lançamento do Open-Sora2.0 pode ter um impacto profundo na estrutura de custos do setor de IA de vídeo, impulsionando a competição entre sistemas de código aberto e comerciais.

【AiBase destaca:】
💡 O custo de treinamento do Open-Sora2.0 é de apenas US$ 200.000, muito menor que os milhões de dólares dos sistemas de geração de vídeo de alta qualidade existentes.
⚙️ O sistema usa um processo de treinamento em três estágios e um codificador automático de vídeo DC-AE, oferecendo uma velocidade de treinamento 5,2 vezes mais rápida e uma velocidade de geração de vídeo mais de dez vezes maior.
📈 A pontuação VBench do Open-Sora2.0 difere apenas 0,69% da pontuação do Sora da OpenAI, apresentando excelente desempenho em termos de qualidade visual e precisão de prompt.

5、O robô Atlas da Boston Dynamics alcança novo avanço: capacidade de movimento se aproxima do nível humano

A Boston Dynamics exibiu recentemente a mais recente capacidade de movimento de seu robô humanoide Atlas. Combinando aprendizado por reforço e tecnologia de captura de movimento, o Atlas pode aprender sozinho e exibir movimentos mais naturais e flexíveis semelhantes aos humanos. Esse avanço tecnológico é considerado um impulsionador para aproximar os robôs humanoides de aplicações reais, especialmente em potenciais aplicações em indústrias, saúde e resgate.

【AiBase destaca:】
🤖 O Atlas, por meio do aprendizado por reforço e da tecnologia de captura de movimento, alcançou movimentos mais naturais semelhantes aos humanos.
🚀 Esse avanço tecnológico melhorou a adaptabilidade e a coordenação do robô em ambientes complexos.
🌐 A parceria entre a Boston Dynamics e o RAI Institute adiciona mais possibilidades à comercialização da tecnologia de robôs humanoides.

6、Impressionante! Robô humanoide exibe movimentos de "nível humano", o G1 da Unitree completa a primeira cambalhota lateral e ainda desafia humanos!

O robô humanoide G1 da Unitree Technology completou com sucesso uma cambalhota lateral de alta dificuldade e aterrissou com segurança, marcando um grande avanço em sua capacidade de movimento. Essa conquista não apenas demonstra a alta confiabilidade e taxa de sucesso do G1, mas também atraiu a atenção de entusiastas da tecnologia em todo o mundo. Para verificar ainda mais suas capacidades, a Unitree Technology lançou o "Desafio de Cambalhota Lateral de Robô para Humanos", incentivando os humanos a tentarem esse movimento de alta dificuldade. O vencedor receberá um robô G1 ou um prêmio equivalente.

【AiBase destaca:】
🤸‍♂️ O robô G1 da Unitree Technology completou com sucesso uma cambalhota lateral, tornando-se o primeiro robô humanoide do mundo a realizar esse movimento.
🏆 A Unitree Technology lançou o "Desafio de Cambalhota Lateral de Robô para Humanos", incentivando os humanos a tentarem esse movimento de alta dificuldade.
🌍 A competição atraiu a atenção de entusiastas da tecnologia em todo o mundo, aguardando o primeiro humano a replicar com sucesso a cambalhota lateral do robô.

7、A Adobe lança o projeto "Project Slide Wow", transformando dados em apresentações de PowerPoint atraentes com um clique

Na conferência anual de inovação digital da Adobe, o projeto "Project Slide Wow" chamou a atenção do mercado. Essa ferramenta baseada em IA generativa visa transformar dados de clientes brutos em apresentações de PowerPoint atraentes rapidamente, simplificando enormemente o trabalho de analistas de dados e profissionais de marketing. Com a geração automática de slides de alta qualidade e um assistente inteligente integrado, os usuários podem atualizar e ajustar o conteúdo da apresentação em tempo real, garantindo a precisão e a atualidade das informações.

【AiBase destaca:】
✨ A ferramenta de IA generativa pode transformar dados brutos em apresentações de PowerPoint de alta qualidade rapidamente, simplificando enormemente o processo de criação.
🤖 Um assistente inteligente integrado responde às necessidades dos usuários em tempo real, fornecendo visualizações adicionais e geração de slides dinâmicos.
📊 Possui capacidade de atualização de dados em tempo real, garantindo que as informações da apresentação estejam sempre atualizadas, melhorando a eficiência das decisões empresariais.

8、Orpheus TTS: um modelo TTS de nova geração com expressão emocional próxima à humana

O Orpheus TTS é um modelo de texto para fala (TTS) de código aberto recém-lançado que chamou a atenção por sua latência extremamente baixa e alta capacidade de expressão emocional. O modelo apresenta excelente desempenho em cenários de conversação em tempo real, podendo fornecer saída de voz natural e fluida, melhorando significativamente a experiência de interação de voz inteligente. Sua natureza de código aberto também oferece aos desenvolvedores mais possibilidades de personalização, e espera-se que se torne um modelo de referência em vários campos no futuro.

【AiBase destaca:】
⚡ **Latência extremamente baixa**: Latência padrão de cerca de 200 milissegundos, que pode ser reduzida para 25-50 milissegundos por meio de otimização, atendendo às necessidades de conversação em tempo real.
🎭 **Expressão emocional**: A saída de voz é natural e fluida, com suporte para variações ricas de tom, melhorando a experiência de interação.
🎙️ **Fluxo de saída em tempo real**: Suporta geração de áudio em fluxo, garantindo que a geração de voz esteja sincronizada com a entrada, adequada para vários cenários.
Link para mais detalhes: https://github.com/canopyai/Orpheus-TTS

9、A LG lança o modelo EXAONE Deep de código aberto, considerado o primeiro modelo de IA de raciocínio autodesenvolvido da Coreia do Sul

A LG AI Research lançou recentemente o modelo de IA de raciocínio EXAONE Deep de código aberto, marcando a entrada da IA em uma nova era de IA ativa. O modelo, com 32 bilhões de parâmetros, demonstra uma capacidade de raciocínio excepcional, especialmente em lógica e matemática, obtendo uma pontuação de 94,5 em matemática no vestibular coreano, comparável à de um gênio.

【AiBase destaca:】
🧠 O EXAONE Deep é o primeiro modelo de IA de raciocínio autodesenvolvido da Coreia do Sul, com capacidade de formular hipóteses e validar raciocínios de forma independente.
📊 O EXAONE Deep, com 32 bilhões de parâmetros, apresenta desempenho excepcional em lógica e matemática, obtendo 94,5 pontos no vestibular coreano.
📱 A LG também lançou modelos leves e de ponta, mantendo 95% e 86% do desempenho, respectivamente, adequados para smartphones, veículos e vários setores.
Link para mais detalhes: https://top.aibase.com/tool/exaone-deep

10、O navegador Google Chrome integrará em breve o assistente de IA Gemini, facilitando as operações!

No contexto do rápido desenvolvimento da tecnologia da internet, o navegador Google Chrome está prestes a lançar uma integração profunda com o assistente de IA Gemini. Essa função melhorará significativamente a experiência online do usuário, tornando as operações mais convenientes. Os usuários podem chamar o assistente Gemini diretamente por meio do ícone na parte frontal da janela, com suporte para teclas de atalho personalizadas e ícone na bandeja do sistema, embora o modo de fixação na barra lateral ainda não seja suportado.

【AiBase destaca:】
✨ O assistente de IA Gemini será integrado profundamente ao navegador Chrome, melhorando a experiência online do usuário.
🔧 Os usuários podem chamar o assistente Gemini rapidamente por meio do ícone na parte frontal da janela, com suporte para teclas de atalho personalizadas.
🗣️ O assistente Gemini suporta funções como pesquisa por voz, mas o modo de fixação na barra lateral ainda não é suportado.

AI Daily

Boletim Diário de IA: OpenAI lança a API o1-pro mais cara da história; Tencent lança novo modelo de raciocínio Huanyu T1; Modelo de vídeo Step-Video-TI2V da Jieyue Xingchen é de código aberto

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

O modelo de IA o1-pro da OpenAI: 10 vezes mais caro que o o1!

OpenAI lançará o o3-mini em poucas semanas, com desempenho ligeiramente inferior ao o1-pro