Hoy, ¡el equipo de Doubao LLM anuncia oficialmente los 8 momentos clave de Doubao LLM! Desde su debut el 15 de mayo de 2024, Doubao LLM ha surgido y ha experimentado un crecimiento acelerado durante 230 días. Desde sus primeros balbuceos hasta la exploración de un mundo desconocido y la creación de sueños fantásticos para los creadores, cada paso de este camino ha estado lleno de desafíos y logros.
1. Avance en el reconocimiento de voz y la expresión emocional
En julio, Doubao LLM logró un gran avance en el campo del reconocimiento de voz: puede comprender conversaciones mixtas en más de 20 dialectos y tiene la capacidad de pensar mientras escucha. Además, ha aprendido a expresar emociones en las conversaciones, puede intervenir con fluidez en las interacciones e incluso conservar las interrupciones y los acentos propios del lenguaje humano. La tecnología subyacente es el modelo de reconocimiento de voz Seed-ASR y el modelo base de generación de voz Seed-TTS, que integran datos y cadenas de razonamiento más amplios, lo que les confiere una capacidad de generalización extremadamente potente.
2. El nacimiento de la banda de música IA
En septiembre, Doubao LLM logró creativamente el concepto de "banda de música IA". Desde la composición y la creación de melodías hasta la generación de interpretaciones y la voz humana, Doubao LLM domina más de 10 habilidades de creación musical y puede aportar inspiración inesperada a la creación musical. La tecnología subyacente es el marco Seed-Music, que combina las ventajas de los modelos de lenguaje y los modelos de difusión, lo que permite un marco general para la generación de música y una alta capacidad de edición controlable.
3. Generación precisa de vídeo y control de la cámara
En el mismo mes, Doubao LLM superó aún más los límites de la creación, pudiendo generar vídeos de alta definición con múltiples sujetos siguiendo instrucciones complejas y controlando con precisión el ángulo de la cámara. Con la ayuda de los modelos de generación de vídeo PixelDance y Seaweed, Doubao LLM puede generar vídeos y efectos de sonido de alta calidad de forma sincronizada, ofreciendo a los creadores una experiencia visual más real y fantástica.
4. Mejora de la capacidad de edición y creación de imágenes
En noviembre, Doubao LLM dominó la capacidad de "retoque fotográfico con una frase" y "generación de pósteres con un clic". Los usuarios solo necesitan instrucciones de texto sencillas para realizar una edición de imágenes precisa y generación de texto. A través del modelo de generación de imágenes SeedEdit, que se actualiza continuamente, Doubao puede representar con precisión escenas complejas y ofrecer edición de imágenes impulsada por lenguaje natural.
5. Salto cualitativo en la capacidad de programación
En diciembre, la capacidad de programación de Doubao LLM mejoró significativamente, convirtiéndose en un programador de IA y analista de datos. A través de Doubao MarsCode, los usuarios pueden implementar fácilmente la escritura de código, el procesamiento de datos y el análisis visual. El modelo de código de Doubao, Doubao-coder, admite profundamente 16 lenguajes de programación y puede satisfacer las necesidades de desarrollo de front-end y back-end, aprendizaje automático y otras necesidades de programación de pila completa.
6. Capacidad extrema de comprensión y procesamiento de texto
Doubao LLM también superó el límite de la ventana de contexto, elevándola a 3 millones de palabras, pudiendo procesar textos a mayor escala y con un retraso de procesamiento de solo 15 segundos por cada millón de tokens. A través de algoritmos de datos relacionados como STRING, Doubao LLM puede obtener rápidamente una gran cantidad de conocimientos externos y proporcionar una capacidad de comprensión más precisa.
7. Avance en la percepción visual y el pensamiento profundo
A mediados de diciembre, Doubao LLM logró la capacidad de percepción visual y puede integrar múltiples sentidos para el pensamiento profundo. No solo puede comprender imágenes con precisión, sino que también puede realizar cálculos complejos, como tomar una foto de un problema de cálculo integral, lo que demuestra su excelente capacidad de aprendizaje e inferencia multi-modal.
8. Modelo general Doubao-pro completamente actualizado
A mediados de diciembre, el modelo general Doubao-pro se actualizó completamente, con capacidades totalmente alineadas con GPT-4 y la capacidad de "reflexionar" durante el proceso de respuesta. Esta actualización mejoró la precisión de comprensión y la calidad de generación de Doubao-pro, convirtiéndolo en un "luchador hexagonal" eficiente con un rendimiento equilibrado en todas las capacidades, convirtiéndose en otro hito en el campo de la IA.
Este año, el equipo de Doubao LLM ha logrado un progreso significativo en la investigación básica de IA. El equipo ha publicado 57 artículos y ha aparecido en conferencias de alto nivel como ICLR, CVPR y NeurIPS. Además, el equipo de Doubao LLM ha colaborado estrechamente con varias universidades de primer nivel para establecer laboratorios conjuntos y promover el desarrollo de la tecnología de IA.
Doubao LLM no solo ha logrado avances tecnológicos, sino que también se ha aplicado ampliamente en diversos sectores. A través de Volcano Engine, Doubao LLM ha prestado servicios a más de 30 sectores, con un volumen diario de llamadas de tokens superior a 4 billones, un aumento de 33 veces en comparación con su lanzamiento en mayo.
Dirección oficial:https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw