ByteDance lança o modelo de imagem para imagem Doubao; uso diário de tokens do modelo Doubao ultrapassa 500 bilhões

Em 25 de julho, a Volcano Engine realizou a Exposição de Inovação em IA 2024 em Chengdu. A Volcano Engine anunciou que o uso diário de tokens de seu modelo de linguagem grande Doubao ultrapassou 500 bilhões, com o uso diário médio de tokens por empresa cliente tendo aumentado 22 vezes desde o lançamento do modelo em 15 de maio. Zhang Xin, vice-presidente da Volcano Engine, afirmou que a empresa está se desenvolvendo em direção a uma direção mais inteligente, setorizada e regionalizada, e está ajudando as empresas a alcançar a inovação de negócios por meio de soluções, produtos e serviços otimizados do setor.

Modelo de linguagem grande Doubao do ByteDance Douyin

Na conferência, a Volcano Engine lançou os recursos mais recentes do modelo de linguagem grande Doubao, incluindo atualizações em imagem visual, síntese de voz e replicação de voz. Os modelos Doubao·Imagem a Imagem e Doubao·Texto a Imagem se destacaram na preservação das características da imagem original e na melhoria da textura da imagem. Os modelos Doubao·Síntese de Voz e Doubao·Replicação de Voz mostraram melhorias na expressão de emoções e na reprodução das características da voz do falante.

Modelo Doubao·Imagem a Imagem: não apenas preserva com alta precisão os contornos, expressões e estruturas espaciais multidimensionais da imagem original, mas também suporta mais de 50 estilos diferentes, suporta extensão de imagem, redesenho parcial e recursos de pintura, permitindo a extensão criativa da imagem. Já está sendo aplicado em aplicativos como Douyin, Jianying, Doubao e Xinghui, e já atende empresas como Samsung e Nubia, abrangendo várias áreas, incluindo álbuns de fotos de celular, assistentes de ferramentas, marketing de e-commerce e veiculação de anúncios.
Modelo Doubao·Texto a Imagem: compreende profundamente informações sobre múltiplos sujeitos, relações sujeito-objeto, construção de personagens e construção espacial, com correspondência de texto e imagem mais precisa; é mais hábil em melhorar a textura da imagem a partir de três direções: luz e sombra, atmosfera e cores e beleza das pessoas; otimiza o conteúdo com características chinesas, podendo fazer uma compreensão detalhada de pessoas, objetos, dinastias, geografia, culinária e festivais chineses.
Modelo Doubao·Síntese de Voz: pode compreender profundamente o enredo e os personagens, expressando corretamente as emoções; preserva hábitos de pronúncia como deglutição e sotaque, com timbre de voz comparável ao de uma pessoa real, tornando a pronúncia mais natural; 26 timbres de voz supernaturais de alta qualidade atendem às necessidades de diversos cenários.
Modelo Doubao·Replicação de Voz: com apenas 5 segundos, pode replicar um timbre de alta fidelidade, reproduzindo com alta precisão as características da voz e o sotaque do falante, suportando a transferência entre 6 grandes idiomas, com pronúncia mais próxima à expressão de um falante nativo.

Ao mesmo tempo, o Volcano Ark fornece recursos de plug-ins essenciais e entidades inteligentes, bem como uma solução de segurança e confiabilidade de dados em ciclo completo, ajudando as empresas a implementar modelos de linguagem grandes de forma conveniente. Os três principais plug-ins do Toutiao Douyin foram atualizados, e foram adicionados plug-ins de análise de páginas da web e calculadora, atendendo às diversas necessidades de aplicativos das empresas. A Volcano Engine fornece o Kouzi Professional Edition, que suporta a construção de baixo código de "AI Bots" especializados que se encaixam nos cenários de negócios das empresas.

A Volcano Engine também criou a plataforma de inovação de aplicativos de IA exclusivos para empresas HiAgent, ajudando as empresas a superar o último quilômetro na adoção de modelos de linguagem grandes. O HiAgent capacita de forma abrangente a implementação rápida e a otimização contínua de aplicativos de IA para empresas em três dimensões: velocidade, densidade e espessura. A nuvem de IA de pilha completa da Volcano Engine se baseia no agrupamento de recursos massivos do ByteDance, suporta arquitetura multi-chip e multi-nuvem, fornece poder computacional em grande escala, suporta rede de cluster de milhares de placas e modelos de linguagem grandes MoE com trilhões de parâmetros.

Notícias e Informações de IA

ByteDance lança o modelo de imagem para imagem Doubao; uso diário de tokens do modelo Doubao ultrapassa 500 bilhões

AIbase基地

Notícias de IA Relacionadas Recomendadas

Pronto para uso! Sistema de avatar digital IA AigcPanel com um clique, suporta síntese de voz e clonagem de voz

Nova tecnologia de clonagem de voz do Google: clone vozes com apenas alguns segundos de amostra de áudio

Dubladores em perigo! O modelo de clonagem de voz VALL-E 2 da Microsoft atinge nível profissional

ElevenLabs, empresa de IA de voz, arrecada US$ 80 milhões em Série B