8 Momentos-chave do Modelo Doubao em 2024: De Estrela de IA a Avanço Total

Hoje, a equipe do modelo de linguagem grande Doubao anunciou oficialmente os 8 momentos-chave do modelo Doubao! Desde sua estreia em 15 de maio de 2024, o modelo Doubao floresceu, crescendo aceleradamente ao longo de 230 dias. De seus primeiros passos na linguagem a uma exploração curiosa do mundo e, finalmente, à criação de sonhos fantásticos para criadores, cada etapa dessa jornada esteve repleta de desafios e conquistas.

1. Avanço no Reconhecimento de Voz e Expressão Emocional

Em julho, o modelo Doubao alcançou um grande avanço no campo do reconhecimento de voz: consegue entender diálogos mistos em mais de 20 dialetos e possui a capacidade de pensar enquanto ouve. Além disso, aprendeu a expressar emoções em conversas, intervindo naturalmente nas interações, e até mesmo retendo características da fala humana como engasgos e sotaques. A tecnologia por trás disso são os modelos de reconhecimento de voz Seed-ASR e o modelo base de geração de voz Seed-TTS, que incorporam dados e cadeias de raciocínio mais amplas, conferindo-lhes uma capacidade de generalização extremamente forte.

2. O Nascimento da Banda de IA

Em setembro, o modelo Doubao inovou ao criar o conceito de "banda de IA". Da composição e arranjo à geração da performance e vocalização, o modelo Doubao domina mais de 10 habilidades de criação musical, capaz de trazer inspiração inesperada para a criação musical. A tecnologia por trás é a estrutura Seed-Music, que combina as vantagens dos modelos de linguagem e modelos de difusão, resultando em uma estrutura universal para geração musical com alta capacidade de edição e controle.

3. Geração Precisa de Vídeos e Controle de Câmera

No mesmo mês, o modelo Doubao expandiu ainda mais os limites da criação, capaz de seguir instruções complexas para gerar vídeos em alta definição com múltiplos personagens e controlar com precisão o ângulo da câmera. Com a ajuda dos modelos de geração de vídeo PixelDance e Seaweed, o modelo Doubao consegue gerar vídeos e efeitos sonoros de alta qualidade de forma sincronizada, oferecendo aos criadores uma experiência visual mais realista e fantástica.

4. Aprimoramento da Edição e Criação de Imagens

Em novembro, o modelo Doubao dominou a capacidade de "edição de imagem com uma frase" e "geração de pôsteres com um clique". Os usuários precisam apenas de instruções de texto simples para realizar edições de imagem e geração de texto precisas. Através do modelo de geração de imagem SeedEdit, que está em constante iteração, o Doubao consegue representar cenários complexos com precisão, oferecendo edição de imagem impulsionada por linguagem natural.

5. Salto na Capacidade de Programação

Em dezembro, a capacidade de programação do modelo Doubao melhorou significativamente, tornando-se um programador de IA e analista de dados. Com o Doubao MarsCode, os usuários podem facilmente realizar a escrita de código, processamento de dados e análise visual. O modelo de código Doubao-coder suporta profundamente 16 linguagens de programação e atende às necessidades de desenvolvimento front-end e back-end, aprendizado de máquina e outras necessidades de programação full-stack.

6. Capacidade Extrema de Compreensão e Processamento de Texto

O modelo Doubao também superou o limite da janela de contexto, elevando-a para 3 milhões de caracteres, permitindo o processamento de textos em maior escala, com um atraso de processamento de apenas 15 segundos para cada milhão de tokens. Através de algoritmos de dados relacionados como STRING, o modelo Doubao consegue acessar rapidamente uma grande quantidade de conhecimento externo e fornecer uma capacidade de compreensão mais precisa.

7. Avanço na Percepção Visual e Pensamento Profundo

Em meados de dezembro, o modelo Doubao alcançou a capacidade de percepção visual e pode integrar múltiplos sentidos para realizar um pensamento profundo. Não só consegue entender imagens com precisão, como também pode realizar cálculos complexos, como resolver uma questão de cálculo integral, demonstrando sua excelente capacidade de aprendizado e raciocínio multimodais.

8. Modelo Universal Doubao-pro Totalmente Atualizado

Em meados de dezembro, o modelo universal Doubao-pro foi totalmente atualizado, com capacidades totalmente alinhadas ao GPT-4 e aprendendo a "refletir" durante o processo de resposta. Essa atualização melhorou a precisão de compreensão e a qualidade de geração do Doubao-pro, tornando-o um "lutador hexagonal" eficiente, com desempenho equilibrado em todas as capacidades, tornando-se mais um marco na área de IA.

Neste ano, a equipe do modelo Doubao alcançou progressos significativos na pesquisa básica de IA. A equipe publicou 57 artigos e participou de conferências importantes como ICLR, CVPR e NeurIPS. Além disso, a equipe do modelo Doubao colaborou profundamente com várias universidades de ponta, estabelecendo laboratórios conjuntos para impulsionar o desenvolvimento da tecnologia de IA.

O modelo Doubao não apenas alcançou avanços tecnológicos, mas também é amplamente aplicado em diversos setores. Através do Volcano Engine, o modelo Doubao atende a mais de 30 setores, com um volume diário de chamadas de tokens superior a 4 trilhões, um aumento de 33 vezes em relação ao lançamento em maio.

Endereço oficial:https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw

Notícias e Informações de IA

8 Momentos-chave do Modelo Doubao em 2024: De Estrela de IA a Avanço Total

AIbase基地

1. Avanço no Reconhecimento de Voz e Expressão Emocional

2. O Nascimento da Banda de IA

3. Geração Precisa de Vídeos e Controle de Câmera

4. Aprimoramento da Edição e Criação de Imagens

5. Salto na Capacidade de Programação

6. Capacidade Extrema de Compreensão e Processamento de Texto

7. Avanço na Percepção Visual e Pensamento Profundo

8. Modelo Universal Doubao-pro Totalmente Atualizado

Notícias de IA Relacionadas Recomendadas

OnePlus 13 lança novo ColorOS 15.0.0.701 com recurso de reconhecimento de voz AIGC

Modelo de reconhecimento de voz de código aberto FireRedASR do Xiaohongshu, com excelente precisão de reconhecimento em chinês

Novo modelo de reconhecimento de voz de código aberto Moonshine: cinco vezes mais rápido que o OpenAI Whisper

API de reconhecimento de voz Gladia arrecada US$ 16 milhões em Série A para desafiar Amazon, Microsoft e Google