Boletín diario de IA: Kunlun Wanwei lanza modelos de código abierto Skywork-OR1; la plataforma de desarrollo de agentes iFLYTEK StarAgent admite completamente MCP; Kimi lanza el modelo de lenguaje visual de código abierto Kimi-VL

¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más destacados del campo de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA https://top.aibase.com/

1. Kimi presenta los modelos de lenguaje visual de código abierto Kimi-VL y Kimi-VL-Thinking, superando a GPT-4o en varios benchmarks

Moonshot AI ha lanzado recientemente los modelos de lenguaje visual Kimi-VL y Kimi-VL-Thinking, que muestran una capacidad excepcional de comprensión e inferencia multimodal. Estos modelos utilizan una arquitectura MoE ligera, con solo 3 mil millones de parámetros, pero superan a GPT-4o en varias pruebas de referencia. La serie Kimi-VL destaca en razonamiento matemático, manipulación de agentes y procesamiento de imágenes de alta resolución, admite la comprensión de contextos extra largos y muestra un amplio potencial de aplicación.

【Resumen de AiBase:】
🛠️ Kimi-VL y Kimi-VL-Thinking utilizan una arquitectura MoE ligera, con solo 3 mil millones de parámetros, lo que resulta en una alta eficiencia operativa.
📊 En las pruebas MathVision y ScreenSpot-Pro, Kimi-VL obtuvo excelentes resultados del 36,8% y el 34,5%, respectivamente, demostrando una potente capacidad de inferencia.
📈 Admite entradas de contexto de hasta 128K tokens, lo que es adecuado para el análisis de documentos largos y videos, mostrando un amplio potencial de aplicación.
Enlaces de detalle: https://github.com/MoonshotAI/Kimi-VL https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

2. La plataforma de desarrollo de agentes iFLYTEK StarAgent de iFLYTEK ya admite completamente MCP

iFLYTEK anunció recientemente que su plataforma de desarrollo de agentes iFLYTEK StarAgent admite completamente MCP, con el objetivo de ayudar a los desarrolladores a construir aplicaciones de agentes de manera eficiente. La plataforma no solo admite la configuración y llamada sencillas de MCP Server líderes en la industria, sino que también permite la publicación con un solo clic de MCP Server personalizados, logrando una verdadera función de "plug and play". Los primeros servidores MCP compatibles cubren múltiples industrias, impulsando la estandarización de la capa intermedia de las aplicaciones de IA.

【Resumen de AiBase:】
🌟 Los desarrolladores pueden configurar y llamar fácilmente a los servidores MCP líderes en la industria, y admite la publicación con un solo clic de servidores MCP personalizados.
🔧 Los primeros servidores MCP compatibles incluyen más de 20 servidores MCP de primera calidad de la industria, que cubren múltiples campos como capacidades de IA y servicios de la vida.
🌐 La plataforma de desarrollo de agentes iFLYTEK StarAgent admite modos de creación de código cero y bajo código, lo que permite a las personas y las empresas desarrollar rápidamente aplicaciones de modelos grandes.
Enlace de detalle: https://mcp.xfyun.cn/

3. Kunlun Wanwei lanza el modelo de código abierto Skywork-OR1, con una excelente capacidad matemática y de código

El equipo de Tiangong de Kunlun Wanwei lanzó el 13 de abril el modelo Skywork-OR1 actualizado, marcando un gran avance en el razonamiento lógico y la resolución de tareas complejas. Esta serie incluye tres modelos de alto rendimiento, dirigidos respectivamente a los campos de las matemáticas y el código, que muestran una capacidad de inferencia excepcional y una excelente relación precio-rendimiento. Skywork-OR1-32B-Preview destaca especialmente en las tareas de programación de concursos, mostrando la avanzada estrategia de entrenamiento.

【Resumen de AiBase:】
🔍 La serie de modelos Skywork-OR1 ha logrado un rendimiento de inferencia líder en la industria en la comprensión lógica y la resolución de tareas complejas.
💻 Incluye tres modelos de alto rendimiento: Skywork-OR1-Math-7B, Skywork-OR1-7B-Preview y Skywork-OR1-32B-Preview, para satisfacer diferentes necesidades.
🏆 Skywork-OR1-32B-Preview destaca en las tareas de programación de concursos, acercándose a la capacidad de DeepSeek-R1, mostrando una excelente relación precio-rendimiento.
Enlace de detalle: https://github.com/SkyworkAI/Skywork-OR1

4. ByteDance lanza Seed-Thinking-v1.5: una nueva fuerza en la competencia de IA de inferencia

El nuevo modelo de lenguaje grande Seed-Thinking-v1.5 de ByteDance muestra una gran potencia en la competencia de IA de inferencia. Este modelo adopta una arquitectura de expertos mixtos y puede superar a los gigantes de la industria en varias pruebas de referencia, especialmente en los campos de la ciencia, la tecnología, las matemáticas y la ingeniería. Mediante la innovación tecnológica y métodos de entrenamiento eficientes, Seed-Thinking-v1.5 no solo mejora la capacidad de inferencia, sino que también presenta un excelente rendimiento en tareas no inferenciales.

【Resumen de AiBase:】
🚀 ByteDance lanza Seed-Thinking-v1.5, enfocado en el campo STEM, que adopta una arquitectura de expertos mixtos.
🏆 Presenta un rendimiento excelente en varias pruebas de referencia, superando los productos de Google y OpenAI.
🔍 Utiliza técnicas de entrenamiento avanzadas y un marco de aprendizaje por refuerzo para mejorar el rendimiento y la eficiencia del modelo.

5. SenseCore 2.0 de SenseTime se actualiza por completo y lanza un plan de cupones de 100 millones de yuanes

En el Día de Intercambio de Tecnología de SenseTime 2025, SenseTime anunció la actualización completa de su gran dispositivo SenseCore 2.0, con el objetivo de proporcionar a las empresas servicios de infraestructura de IA completos, eficientes y flexibles. Esta actualización responde a los tres principales desafíos de la industria de los modelos grandes y, mediante la innovación tecnológica, mejora significativamente la tasa de utilización de la potencia de cálculo y el rendimiento de la inferencia. Además, SenseTime ha invertido 100 millones de yuanes en cupones especiales para ayudar a diversas industrias a acelerar la implementación de la IA.

【Resumen de AiBase:】
⚙️ SenseCore 2.0 se actualiza por completo, mejorando la relación precio-rendimiento y la flexibilidad de los servicios de infraestructura de IA.
🤝 SenseTime y Songying Technology establecen una cooperación estratégica para promover el desarrollo de la tecnología de inteligencia encarnada y resolver los problemas de la implementación inteligente.
💰 Invierte 100 millones de yuanes en cupones para apoyar los servicios de IA de las empresas en todo el proceso, desde el asesoramiento hasta el entrenamiento de modelos.

6. Google AI Studio abre una prueba gratuita limitada del modelo de video Veo 2

Google AI Studio ha abierto recientemente una prueba gratuita limitada del modelo de video Veo 2 para algunos usuarios, lo que ha generado una gran atención. Veo 2, como la herramienta de generación de video de IA de última generación, admite resoluciones de hasta 4K y simulaciones físicas realistas, mostrando su poderosa capacidad técnica. Sin embargo, los permisos de prueba están estrictamente limitados, y los usuarios están confundidos por el tiempo de enfriamiento y el uso posterior desconocido.

【Resumen de AiBase:】
🌟 El modelo de video Veo 2 está desarrollado por Google DeepMind, admite resoluciones de hasta 4K y muestra una capacidad de generación excepcional.
🕒 Los permisos de prueba son limitados, y los usuarios informan que el tiempo de enfriamiento no está claro, lo que puede afectar la experiencia.
🔒 Google controla estrictamente el contenido generado para garantizar la privacidad y seguridad de los usuarios.

7. El laboratorio de IA de Shanghai lanza el modelo de lenguaje grande multimodal de la serie InternVL3 de código abierto

OpenGVLab lanzó el 11 de abril la serie de modelos InternVL3, marcando un nuevo hito en el campo de los modelos de lenguaje grandes multimodales. Esta serie de modelos incluye varios tamaños, desde 1B hasta 78B, con la capacidad de procesar diversas informaciones como texto, imágenes y videos, y su rendimiento ha mejorado significativamente. En comparación con los productos de la generación anterior, InternVL3 ha mejorado significativamente en la percepción e inferencia multimodales, expandiendo las capacidades en múltiples campos como el uso de herramientas y el análisis de imágenes industriales.

【Resumen de AiBase:】
🧠 La serie de modelos InternVL3 admite varios tamaños, desde 1B hasta 78B, mostrando una capacidad de procesamiento multimodal excepcional.
🔍 En comparación con InternVL2.5, InternVL3 ha mejorado significativamente en la percepción e inferencia multimodales, admitiendo datos de múltiples imágenes y videos.
⚙️ El modelo se puede implementar como una API compatible con OpenAI mediante el servidor api_server de LMDeploy, lo que permite a los usuarios llamar fácilmente al modelo.
Enlace de detalle: https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e

8. ¡Revolución en la evaluación del "CI" de la IA! El nuevo benchmark GAIA supera a ARC-AGI

Con el rápido desarrollo de la tecnología de inteligencia artificial, la evaluación precisa del nivel de inteligencia de la IA se ha convertido en un foco de atención de la industria. Si bien los benchmarks de evaluación tradicionales como MMLU se utilizan ampliamente, sus limitaciones están surgiendo gradualmente, lo que no refleja completamente las capacidades de la IA en aplicaciones prácticas. El nuevo benchmark GAIA simula problemas complejos del mundo real, enfatizando la flexibilidad y la especialización de la IA en tareas de múltiples pasos, lo que marca un cambio significativo en los métodos de evaluación de la IA.

【Resumen de AiBase:】
🔍 El nuevo benchmark GAIA tiene como objetivo evaluar las capacidades de la IA en aplicaciones prácticas, cubriendo habilidades clave como la comprensión multimodal y el razonamiento complejo.
📊 Las altas puntuaciones en benchmarks tradicionales como MMLU no representan la capacidad real de la IA, y las diferencias de rendimiento en aplicaciones prácticas son significativas.
🚀 Los resultados preliminares del benchmark GAIA muestran que los modelos con mayor flexibilidad superan a otros modelos conocidos en tareas complejas.
Enlace de detalle: https://huggingface.co/gaia-benchmark

9. Modelo de video de código abierto Pusa creado con un costo de cien yuanes: basado en el ajuste fino de Mochi, reproduce alta calidad a bajo costo

Pusa es un modelo de generación de video de código abierto basado en el ajuste fino de Mochi, que cuenta con las características de bajo costo y código abierto completo. Con un costo de entrenamiento de aproximadamente 100 dólares, Pusa muestra una buena capacidad de generación de video y admite varias tareas de generación. Su proceso de ajuste fino abierto promueve la cooperación y el desarrollo de la comunidad, atrayendo a más investigadores a participar en la investigación de modelos de video.

【Resumen de AiBase:】
💰 El costo de entrenamiento del modelo Pusa es de solo 100 dólares, significativamente menor que el costo de decenas de miles o incluso cientos de miles de dólares de los modelos de video grandes tradicionales.
🔧 Pusa es completamente de código abierto, proporciona un repositorio de código completo y métodos de entrenamiento, lo que permite a los investigadores reproducir experimentos e innovar.
🎬 Basado en el ajuste fino de Mochi, Pusa admite varias tareas de generación de video. Aunque la resolución actual es de 480p, muestra potencial en la fidelidad del movimiento y el cumplimiento de las indicaciones.
Enlace de detalle: https://top.aibase.com/tool/pusa

10. Proyecto de código abierto UNO de ByteDance: la generación de imágenes puede mantener la consistencia de personajes y objetos

El proyecto de código abierto UNO de ByteDance ha logrado un importante avance en el campo de la generación de imágenes de IA, resolviendo el problema de la inconsistencia de personajes u objetos en la generación de imágenes anteriores. Mediante un innovador proceso de síntesis de datos de alta consistencia y el diseño del modelo, UNO puede garantizar que las imágenes generadas mantengan la consistencia de las características, tanto en escenas de un solo sujeto como en escenas de múltiples sujetos.

【Resumen de AiBase:】
🧠 El proyecto UNO tiene como objetivo resolver el problema de la consistencia de los personajes en la generación de imágenes de IA y evitar la "ceguera facial".
🔍 Mediante un proceso de síntesis de datos de alta consistencia y un diseño innovador del modelo, UNO mejora la capacidad de control de la generación de imágenes.
🎨 Admite escenas de un solo sujeto y de múltiples sujetos al mismo tiempo, garantizando una alta consistencia de los resultados generados.
Enlace de detalle: https://huggingface.co/bytedance-research/UNO

11. XPeng Motors lanza un nuevo modelo físico grande y se posiciona como una empresa de automóviles de IA

El fundador de XPeng Motors, He Xiaopeng, enfatizó en las redes sociales el posicionamiento de la empresa como una empresa de automóviles de IA, considerando que el mayor valor de la inteligencia artificial radica en cambiar el mundo físico. Reveló las innovaciones tecnológicas de la empresa en el campo de la conducción autónoma, especialmente el aprendizaje por refuerzo y la destilación de modelos, lo que le otorga una competitividad única en la industria. Además, XPeng está entrenando un modelo de mundo físico a gran escala, lo que marca su posición de liderazgo en la aplicación de la tecnología de IA.

【Resumen de AiBase:】
🤖 XPeng Motors se posiciona como una empresa de automóviles de IA, enfatizando el valor de aplicación de la tecnología de IA en el mundo físico.
🚀 Introduce la tecnología de aprendizaje por refuerzo y destilación de modelos para mejorar la competitividad en el campo de la conducción autónoma.
📅 La conferencia de prensa de 2025 responderá a la dirección futura del desarrollo de XPeng y lanzará el nuevo modelo X9.

12. ByteDance se extiende a las gafas inteligentes de IA y desafía el mercado de dispositivos portátiles de próxima generación

ByteDance está desarrollando activamente unas gafas inteligentes de IA, con el objetivo de combinar funciones avanzadas de inteligencia artificial con la captura de imágenes de alta calidad para proporcionar una experiencia de usuario innovadora. El dispositivo integrará el modelo de IA "Doubao" de desarrollo propio de ByteDance para mejorar la capacidad de interacción inteligente, y los usuarios pueden interactuar con las gafas mediante comandos de voz, etc. El proyecto ha entrado en la fase de desarrollo sustancial, y ByteDance ha entablado conversaciones con los socios de la cadena de suministro para impulsar el diseño de las funciones del producto y el plan de lanzamiento.

【Resumen de AiBase:】
🧠 ByteDance está desarrollando unas gafas inteligentes de IA que combinan funciones de IA avanzadas con la captura de imágenes.
🔍 Integra el modelo de IA "Doubao", que admite comandos de voz, traducción en tiempo real y otras interacciones inteligentes.
📈 Planea comunicarse con los socios de la cadena de suministro para impulsar el diseño del producto y el lanzamiento al mercado, desafiando a competidores como Meta.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Boletín diario de IA: Kunlun Wanwei lanza modelos de código abierto Skywork-OR1; la plataforma de desarrollo de agentes iFLYTEK StarAgent admite completamente MCP; Kimi lanza el modelo de lenguaje visual de código abierto Kimi-VL

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Kimi-VL y Kimi-VL-Thinking, modelos de lenguaje visual de código abierto, superan a GPT-4o en varios benchmarks

Google lanza PaliGemma 2 Mix, un nuevo modelo de lenguaje visual con múltiples funciones para desarrolladores

IBM lanza Granite-Vision-3.1-2B, un modelo de lenguaje visual que facilita el análisis de documentos complejos

La tecnología VLA lidera la carrera de la conducción autónoma, Nvidia ayuda a las empresas emergentes a ganar cuota de mercado rápidamente

NVIDIA lanza NVILA, un nuevo modelo de lenguaje visual que supera a GPT-4o Mini y Llama 3.2

NVIDIA presenta NVEagle, un nuevo modelo de lenguaje visual que puede conversar contigo a partir de imágenes

Google AI lanza ScreenAI: un modelo de lenguaje visual para interpretar interfaces de usuario e infografías

CogAgent: Nuevo modelo de lenguaje visual desarrollado por la Universidad Tsinghua para una comprensión y navegación GUI mejoradas

Google AI y la UC Berkeley presentan PixelLLM, un modelo de lenguaje visual

La Universidad de Pekín lanza el nuevo modelo de lenguaje visual Video-LLaVA, que permite la entrada unificada de vídeo e imágenes