El 25 de julio, Volcano Engine celebró en Chengdu la gira de innovación de IA 2024. Volcano Engine anunció que el uso diario de tokens de su modelo de lenguaje grande Doubao superó los 500 mil millones, y el uso diario promedio de tokens por cliente empresarial aumentó 22 veces desde el lanzamiento del modelo el 15 de mayo. Zhang Xin, vicepresidente de Volcano Engine, afirmó que la compañía se está desarrollando hacia una dirección más inteligente, sectorial y regional, y que, a través de soluciones sectoriales, productos y servicios optimizados, ayuda a las empresas a lograr la innovación empresarial.

Modelo de lenguaje grande Doubao de ByteDance Douyin

En la conferencia, Volcano Engine presentó las capacidades más recientes del modelo de lenguaje grande Doubao, incluyendo mejoras en imagen visual, síntesis de voz y replicación de voz. El modelo Doubao·Generación de imágenes a partir de imágenes y el modelo Doubao·Generación de imágenes a partir de texto destacan por preservar las características de la imagen original y mejorar la calidad de la imagen. Los modelos Doubao·Síntesis de voz y Doubao·Replicación de voz han mejorado en la expresión de emociones y en la reproducción de las características de la voz del hablante.

  1. Modelo Doubao·Generación de imágenes a partir de imágenes: no solo conserva en gran medida las características multidimensionales de la imagen original, como el contorno, la expresión y la estructura espacial de las personas, sino que también admite más de 50 estilos diferentes, admite la expansión de imágenes, el redibujo parcial y la función de manchado, lo que permite la extensión creativa de las imágenes. Actualmente se utiliza en aplicaciones como Douyin, Jianying, Doubao y Xinghui, y ha prestado servicios a empresas como Samsung y Nubia, cubriendo múltiples campos como álbumes de fotos de teléfonos móviles, asistentes de herramientas, marketing electrónico y publicidad.

  2. Modelo Doubao·Generación de imágenes a partir de texto: comprende en profundidad la información sobre la cantidad de sujetos, la relación entre sujeto y objeto, la estructura de las personas y la estructura espacial, lo que hace que la coincidencia entre texto e imagen sea más precisa; es más hábil en la mejora de la calidad de la imagen desde tres aspectos: luz y sombra, atmósfera de color y belleza de las personas; optimiza el contenido con características chinas y puede comprender con precisión las personas, objetos, dinastías, geografía, gastronomía y festividades chinas.

  3. Modelo Doubao·Síntesis de voz: puede comprender en profundidad la trama y los personajes, expresando correctamente las emociones; conserva los hábitos de pronunciación como la omisión de sonidos y el acento, con una calidad de voz comparable a la de una persona real, lo que hace que la voz sea más natural; 26 tonos de voz de alta calidad y súper naturales satisfacen las necesidades de diversas situaciones.

  4. Modelo Doubao·Replicación de voz: solo se necesitan 5 segundos para copiar un tono de voz de alta fidelidad, reproduciendo en gran medida las características de la voz y el acento del hablante, admite la transferencia entre 6 idiomas principales y la pronunciación se acerca a la expresión de los hablantes nativos.

Al mismo tiempo, Volcano Ark proporciona capacidades de complementos centrales y agentes inteligentes, así como una solución de seguridad y confianza de datos de ciclo completo, para ayudar a las empresas a implementar fácilmente los modelos de lenguaje grandes. Se han actualizado tres complementos principales de Toutiao y Douyin, y se han añadido un complemento de análisis web y un complemento de calculadora, para admitir las diversas necesidades de aplicación de las empresas. Volcano Engine proporciona Kouzi Professional Edition, que admite la construcción de bajo código de "AI Bot" de tipo experto que se adapta a los escenarios empresariales.

Volcano Engine también ha creado la plataforma de innovación de aplicaciones de IA exclusivas para empresas HiAgent, para ayudar a las empresas a superar el último kilómetro en la adopción de modelos de lenguaje grandes. HiAgent potencia de forma integral la rápida implementación y optimización continua de las aplicaciones de IA empresariales desde tres dimensiones: velocidad, densidad y espesor. La nube de IA integral de Volcano Engine se basa en el conjunto de recursos masivos de ByteDance, admite arquitecturas multicentro y multicloud, proporciona una potencia de cálculo a gran escala, admite redes de clústeres de miles de tarjetas y modelos de lenguaje grandes MoE con billones de parámetros.