Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

Moonshot AI lança Kimi-Audio: novo modelo de áudio base aberto estabelece novo padrão

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Apr 27, 2025

Recentemente, a Moonshot AI anunciou oficialmente o lançamento do Kimi-Audio, um novo modelo de áudio básico de código aberto, projetado para impulsionar o progresso tecnológico nas áreas de compreensão, geração e interação de áudio. Este lançamento atraiu ampla atenção da comunidade global de IA, sendo considerado um marco importante no desenvolvimento da IA multimodal.

A seguir, apresentamos uma reportagem completa sobre as características principais do Kimi-Audio, seu desempenho e seu impacto na indústria.

Características inovadoras: Capacidade de processamento de áudio multifuncional

O Kimi-Audio-7B-Instruct, baseado na arquitetura Qwen2.5-7B e combinando a tecnologia Whisper, demonstra uma poderosa multifuncionalidade. O modelo suporta várias tarefas relacionadas a áudio, incluindo, mas não se limitando a: reconhecimento de voz (ASR), perguntas e respostas de áudio (AQA), legendagem de áudio (AAC), reconhecimento de emoções de voz (SER), classificação de eventos/cenários sonoros (SEC/ASC), texto para voz (TTS), conversão de voz (VC) e diálogo de voz de ponta a ponta.

O Kimi-Audio utiliza um mecanismo inovador de entrada de áudio híbrido, processando dados de áudio com uma taxa de amostragem de 12,5 Hz, melhorando significativamente a capacidade do modelo de compreender sinais de áudio complexos.

Dados e treinamento: 1,3 bilhão de horas de áudio estabelecem uma base sólida

O desempenho excepcional do Kimi-Audio deve-se ao seu vasto conjunto de dados de treinamento. Segundo informações oficiais, o modelo foi treinado em mais de 13 milhões de horas de dados de áudio diversificados, abrangendo voz, música, sons ambientais e outros tipos. A Moonshot AI também tornou de código aberto o código de treinamento, os pesos do modelo e o pacote de ferramentas de avaliação do Kimi-Audio.

Desempenho: Superando os padrões do setor

O Kimi-Audio demonstrou desempenho de ponta em vários testes de referência, superando modelos de código aberto e alguns modelos proprietários existentes. Seu desempenho em tarefas como reconhecimento de voz, análise de sentimentos e perguntas e respostas de áudio foi particularmente notável, demonstrando uma poderosa capacidade de generalização. O pacote de ferramentas de avaliação de código aberto do Kimi-Audio fornece à indústria uma plataforma de teste padronizada.

Impacto na indústria: Aceleração da democratização da IA multimodal

Como um modelo de código aberto, o Kimi-Audio reduz a barreira de entrada para o uso da tecnologia de IA de áudio, permitindo que desenvolvedores, empresas e pesquisadores construam aplicativos inovadores com baixo custo. O lançamento do Kimi-Audio ocorre em um momento de rápido crescimento da indústria de IA na China, e sua estratégia de código aberto impulsiona ainda mais o processo de democratização da tecnologia de IA global, oferecendo mais opções para desenvolvedores de países não ocidentais.

O lançamento do Kimi-Audio não apenas injetou nova vitalidade na área de processamento de áudio, mas também estabeleceu um exemplo de abertura e colaboração para o ecossistema global de IA.

MoonshotAI Kimi-Audio Modelo de áudio base IA multimodal

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

UniRepLKNet, uma CNN de núcleo grande: desafiando a supremacia multimodal do Transformer

UniRepLKNet, uma nova CNN de núcleo grande, desafia a supremacia multimodal do Transformer. Uma colaboração entre o Tencent AI Lab e a equipe da Universidade Chinesa de Hong Kong apresenta uma nova arquitetura de CNN para reconhecimento de imagem. O UniRepLKNet é aplicável a nuvens de pontos, áudio e vídeo sem alterar a estrutura do modelo. Princípios de design da CNN com núcleo grande: grande campo receptivo, abstração de recursos e representação profunda. O UniRepLKNet supera o Transformer em tarefas como ImageNet, COCO e ADE20K.

Dec 25, 2023

2.5k

Pequim lança agente de IA Jarvis-1, que conquista o 'Minecraft'

A Universidade de Pequim, a Universidade de Ciência e Tecnologia de Pequim, a UCLA e a BIGAI lançaram em conjunto o Jarvis-1, integrando criativamente percepção multimodal, memória multimodal e aprendizagem autônoma. O Jarvis-1 demonstrou desempenho excepcional no jogo 'Minecraft', melhorando significativamente a taxa de conclusão de tarefas através da memória multimodal, como a impressionante taxa de sucesso de 12,5% na tarefa de criação de picareta de diamante. A equipe de pesquisa, ao combinar modelos básicos multimodais com LLM, permitiu que o Jarvis-1 compreendesse naturalmente o ambiente e realizasse planejamento interativo, tornando-se uma inteligência geral de mundo aberto.

Dec 8, 2023

490

He Xiaodong decifra a estratégia de modelos de linguagem gigantes da JD.com: na era da inteligência industrial, as empresas devem investir a longo prazo

O ChatGPT, apesar de sua impressionante capacidade generalizada, ainda precisa superar desafios na fusão de inteligência multimodal para alcançar a verdadeira emergência da inteligência. Em comparação com os modelos generalizados, os modelos verticais têm maior valor prático e precisam ser profundamente integrados a cenários específicos. Os modelos de linguagem gigantes industriais necessitam de atualizações contínuas e exigem investimentos de longo prazo e sinergia industrial. Os CTOs devem planejar novas tecnologias antecipadamente e considerar o valor global do desenvolvimento atual e futuro. As empresas devem adotar o longo prazo e investir firmemente na industrialização da tecnologia de modelos de linguagem gigantes.

Oct 24, 2023

410

Ascensão dos aplicativos de IA de vídeo: tecnologia multimodal e liberdade

A ascensão da tecnologia multimodal: aplicativos de IA de vídeo representam um novo avanço na tecnologia multimodal, capaz de processar diferentes tipos de mídia. O potencial da produção automatizada de vídeo: aplicativos de IA de vídeo oferecem oportunidades para a produção automatizada de vídeo, reduzindo custos e melhorando a eficiência. Liberdade e personalização: aplicativos de IA de vídeo oferecem opções de alta liberdade e personalização, permitindo que os criadores expressem sua criatividade de forma mais flexível.

Oct 11, 2023

520