Em 25 de julho, a Volcano Engine realizou a Exposição de Inovação em IA 2024 em Chengdu. A Volcano Engine anunciou que o uso diário de tokens de seu modelo de linguagem grande Doubao ultrapassou 500 bilhões, com o uso diário médio de tokens por empresa cliente tendo aumentado 22 vezes desde o lançamento do modelo em 15 de maio. Zhang Xin, vice-presidente da Volcano Engine, afirmou que a empresa está se desenvolvendo em direção a uma direção mais inteligente, setorizada e regionalizada, e está ajudando as empresas a alcançar a inovação de negócios por meio de soluções, produtos e serviços otimizados do setor.
Na conferência, a Volcano Engine lançou os recursos mais recentes do modelo de linguagem grande Doubao, incluindo atualizações em imagem visual, síntese de voz e replicação de voz. Os modelos Doubao·Imagem a Imagem e Doubao·Texto a Imagem se destacaram na preservação das características da imagem original e na melhoria da textura da imagem. Os modelos Doubao·Síntese de Voz e Doubao·Replicação de Voz mostraram melhorias na expressão de emoções e na reprodução das características da voz do falante.
Modelo Doubao·Imagem a Imagem: não apenas preserva com alta precisão os contornos, expressões e estruturas espaciais multidimensionais da imagem original, mas também suporta mais de 50 estilos diferentes, suporta extensão de imagem, redesenho parcial e recursos de pintura, permitindo a extensão criativa da imagem. Já está sendo aplicado em aplicativos como Douyin, Jianying, Doubao e Xinghui, e já atende empresas como Samsung e Nubia, abrangendo várias áreas, incluindo álbuns de fotos de celular, assistentes de ferramentas, marketing de e-commerce e veiculação de anúncios.
Modelo Doubao·Texto a Imagem: compreende profundamente informações sobre múltiplos sujeitos, relações sujeito-objeto, construção de personagens e construção espacial, com correspondência de texto e imagem mais precisa; é mais hábil em melhorar a textura da imagem a partir de três direções: luz e sombra, atmosfera e cores e beleza das pessoas; otimiza o conteúdo com características chinesas, podendo fazer uma compreensão detalhada de pessoas, objetos, dinastias, geografia, culinária e festivais chineses.
Modelo Doubao·Síntese de Voz: pode compreender profundamente o enredo e os personagens, expressando corretamente as emoções; preserva hábitos de pronúncia como deglutição e sotaque, com timbre de voz comparável ao de uma pessoa real, tornando a pronúncia mais natural; 26 timbres de voz supernaturais de alta qualidade atendem às necessidades de diversos cenários.
Modelo Doubao·Replicação de Voz: com apenas 5 segundos, pode replicar um timbre de alta fidelidade, reproduzindo com alta precisão as características da voz e o sotaque do falante, suportando a transferência entre 6 grandes idiomas, com pronúncia mais próxima à expressão de um falante nativo.
Ao mesmo tempo, o Volcano Ark fornece recursos de plug-ins essenciais e entidades inteligentes, bem como uma solução de segurança e confiabilidade de dados em ciclo completo, ajudando as empresas a implementar modelos de linguagem grandes de forma conveniente. Os três principais plug-ins do Toutiao Douyin foram atualizados, e foram adicionados plug-ins de análise de páginas da web e calculadora, atendendo às diversas necessidades de aplicativos das empresas. A Volcano Engine fornece o Kouzi Professional Edition, que suporta a construção de baixo código de "AI Bots" especializados que se encaixam nos cenários de negócios das empresas.
A Volcano Engine também criou a plataforma de inovação de aplicativos de IA exclusivos para empresas HiAgent, ajudando as empresas a superar o último quilômetro na adoção de modelos de linguagem grandes. O HiAgent capacita de forma abrangente a implementação rápida e a otimização contínua de aplicativos de IA para empresas em três dimensões: velocidade, densidade e espessura. A nuvem de IA de pilha completa da Volcano Engine se baseia no agrupamento de recursos massivos do ByteDance, suporta arquitetura multi-chip e multi-nuvem, fornece poder computacional em grande escala, suporta rede de cluster de milhares de placas e modelos de linguagem grandes MoE com trilhões de parâmetros.