Hoy, en la conferencia para desarrolladores Create2025 AI de Baidu celebrada en Wuhan, el fundador Robin Li pronunció un discurso de casi 60 minutos con el tema "El mundo de los modelos, el reino de las aplicaciones", lanzando oficialmente las versiones 4.5 Turbo y X1 Turbo del modelo lingüístico grande Wenxin, y revelando el progreso y los desafíos existentes de la implementación del modelo DeepSeek en el ecosistema de Baidu.
Li reveló que los productos principales de Baidu, como Wenxiaoyan, la búsqueda de Baidu y Baidu Maps, ya han integrado el modelo DeepSeek completo, logrando una mayor eficiencia en escenarios como la atención al cliente inteligente y la mejora de la búsqueda. Sin embargo, también admitió que DeepSeek todavía tiene limitaciones técnicas: "El modelo solo admite el procesamiento de texto y no puede generar contenido multimodal como imágenes, audio y video, mientras que más del 60% de los clientes empresariales de Baidu Smart Cloud tienen una clara demanda de capacidades multimodales". Utilizó el escenario de transmisión de comercio electrónico como ejemplo, señalando que DeepSeek, debido a su alta tasa de alucinaciones (es decir, generación de información errónea), es difícil de aplicar directamente en campos de alto riesgo como las finanzas y la medicina. "Si se promociona erróneamente una oferta de 'compra uno y llévate diez' durante una transmisión en vivo, el comerciante sufrirá pérdidas incontrolables". Además, la lentitud de su respuesta y el alto costo de las llamadas también limitan su implementación a gran escala: actualmente, el costo de las llamadas a la API de la mayoría de los modelos grandes en el mercado chino es inferior al del modelo DeepSeek completo, y su velocidad de respuesta es más rápida.
Para abordar estos problemas, las dos versiones del modelo lingüístico grande Wenxin lanzadas por Baidu esta vez proponen tres direcciones de mejora: multimodalidad, razonamiento sólido y bajo costo. Li enfatizó que la multimodalidad se ha convertido en el "billete de entrada" para los modelos de IA de próxima generación: "La cuota de mercado de los modelos de texto puro se reducirá rápidamente, y las empresas necesitarán modelos de uso general que puedan procesar simultáneamente texto, imágenes y audio y video". En términos de rendimiento, el precio de entrada de Wenxin 4.5 Turbo por millón de tokens es de 0,8 yuanes, y el precio de salida es de 3,2 yuanes, con una velocidad de inferencia dos veces más rápida que la versión anterior y una reducción de costos del 80%; el precio de entrada de la versión X1 Turbo es de 1 yuan y el de salida es de 4 yuanes, con una mejora del rendimiento y una reducción de precio adicional del 50%, y admite la optimización de la inferencia en dominios verticales como el chino e inglés, legal y médico.
“El costo es el principal obstáculo para el auge de las aplicaciones de IA”. Li declaró directamente que el mayor obstáculo para que los desarrolladores construyan aplicaciones de IA actualmente es el alto costo de la potencia de cálculo, y la esencia de la innovación tecnológica a menudo proviene de un avance en la estructura de costos. Utilizó la conducción autónoma como ejemplo, señalando que en 2015, el precio unitario del lidar superaba los 100.000 dólares estadounidenses, mientras que ahora ha bajado a miles de dólares, impulsando directamente la popularización de la tecnología de nivel 4. La reducción de precios del modelo lingüístico grande Wenxin tiene como objetivo reducir el umbral de implementación de las empresas: "Permitir que las pequeñas y medianas empresas puedan usar modelos grandes, que los emprendedores se atrevan a experimentar y, finalmente, impulsar aplicaciones nativas de IA en todos los sectores".
Según el equipo técnico de Baidu, Wenxin 4.5 Turbo y X1 Turbo ya están disponibles simultáneamente para la implementación en la nube pública y privada, y admiten llamadas a demanda y entrenamiento personalizado. Los análisis de mercado sugieren que Baidu, a través de la iteración tecnológica y la reconstrucción de costos, está intentando encontrar un punto de equilibrio entre la capacidad del modelo y la implementación comercial, y la capacidad multimodal y la ventaja de precio podrían convertirse en sus fichas clave para competir por clientes empresariales.