¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Productos de IA nuevos Infórmese aquí: https://top.aibase.com/

1. Kuaishou KeLing AI se integra completamente con DeepSeek-R1; DeepSeek versión inspiración ya disponible

KeLing AI, perteneciente a Kuaishou, se ha integrado recientemente con DeepSeek-R1, ofreciendo a los usuarios una notable comodidad en la generación de videos e imágenes. Gracias a DeepSeek-R1, los usuarios pueden convertir fácilmente sus ideas en indicaciones profesionales, reduciendo así la barrera de entrada y mejorando la eficiencia. Además, la versión inspiración de DeepSeek y la función de banco de palabras clave de inspiración de KeLing AI trabajan juntas para ayudar a los usuarios a controlar mejor los detalles de los videos, permitiendo incluso a usuarios comunes crear contenido de alta calidad. Estas innovaciones permiten a KeLing AI mantener su posición de liderazgo en la industria.

image.png

【Resumen de AiBase:】

🌟 Kuaishou KeLing AI se integra completamente con DeepSeek-R1, ayudando a los usuarios a convertir sus ideas en indicaciones profesionales.

🔥 KeLing AI sigue actualizándose; la integración con DeepSeek-R1 reduce aún más la barrera de entrada para la creación.

🎬 La versión inspiración de DeepSeek y el "banco de palabras clave de inspiración" trabajan en conjunto para mejorar el control de los usuarios sobre los detalles del video.

2. Baidu lanza los modelos de lenguaje grande Wenxin 4.5 y X1; la reducción significativa de precios llama la atención

Los últimos modelos de lenguaje grande Wenxin 4.5 y X1 de Baidu marcan un avance significativo en la comprensión multimodal y el razonamiento lógico. Wenxin 4.5, con su notable ventaja de precio y su rendimiento excepcional, supera a GPT-4.5, atrayendo la atención de numerosos desarrolladores. X1, por su parte, se centra en las preguntas y respuestas de conocimiento en chino y la creación literaria, con una potente capacidad de razonamiento y funciones multimodales.

image.png

【Resumen de AiBase:】

💡 Wenxin 4.5 es el primer modelo multimodal nativo de Baidu, con un rendimiento superior a GPT-4.5 y un precio de llamada API de solo el 1% del de este último.

🧠 El modelo de lenguaje grande Wenxin X1 se centra en preguntas y respuestas de conocimiento en chino y razonamiento lógico, con una larga cadena de pensamiento y capacidades multimodales, pudiendo comprender y generar imágenes.

💰 Los precios de entrada y salida de Wenxin 4.5 y X1 son muy competitivos, lo que refleja la sólida estrategia de Baidu en el campo de los modelos de lenguaje grande.

3. El equipo de modelos de lenguaje grande de Xiaomi alcanza la cima de la clasificación MMAU de inferencia de audio, inspirado en DeepSeek-R1

El equipo de modelos de lenguaje grande de Xiaomi ha logrado un progreso notable en el campo de la inferencia de audio, utilizando algoritmos de aprendizaje por refuerzo para aumentar con éxito la precisión del modelo al 64,5%, ocupando un lugar destacado en la clasificación MMAU, un referente internacional. La investigación del equipo muestra que el mecanismo de retroalimentación en tiempo real del aprendizaje por refuerzo es más eficaz en el entrenamiento del modelo, y han publicado la tecnología correspondiente, impulsando así la investigación en el ámbito académico e industrial.

image.png

【Resumen de AiBase:】

🔍 El equipo de modelos de lenguaje grande de Xiaomi ha logrado un avance en el campo de la inferencia de audio mediante algoritmos de aprendizaje por refuerzo, alcanzando una precisión del 64,5%.

📈 El conjunto de evaluación MMAU es un estándar importante para la capacidad de inferencia de audio; la precisión actual de los expertos humanos es del 82,23%.

💡 Los resultados de la investigación muestran que el mecanismo de retroalimentación en tiempo real del aprendizaje por refuerzo es más eficaz para el entrenamiento del modelo; las investigaciones futuras requieren una exploración más profunda.

Enlace de detalles:https://github.com/xiaomi-research/r1-aqa

4. DingTalk lanza un asistente de atención al cliente con IA; se puede integrar automáticamente en sitios web corporativos, cuentas públicas, etc.

DingTalk lanzó el 17 de marzo de 2025 su asistente de atención al cliente con IA, con el objetivo de mejorar la eficiencia del servicio al cliente de las empresas. Esta función puede integrarse automáticamente en los sitios web y cuentas públicas de las empresas, admite conversaciones de varias rondas, comprende con precisión las necesidades de los usuarios y proporciona respuestas profesionales. Desde su lanzamiento, más de 700 empresas lo han adoptado, ofreciendo un servicio en línea 24/7, con una respuesta rápida y la posibilidad de implementarse en múltiples plataformas, lo que facilita enormemente la comunicación entre empresas y usuarios.

image.png

【Resumen de AiBase:】

💡 El asistente de atención al cliente con IA se puede integrar automáticamente en sitios web y cuentas públicas, mejorando la capacidad de servicio de las empresas.

🛠️ Con solo tres pasos de configuración, las empresas pueden lanzar rápidamente el asistente de IA, simplificando la construcción del sistema de conocimiento.

🌐 Admite la implementación en múltiples plataformas, permitiendo a las empresas ofrecer servicio a los usuarios a través de múltiples canales.

5. Tecnología de conversión de efectos de imagen LBM: elimina a los transeúntes con un solo clic y permite ajustar la iluminación

LBM (Potential Bridge Matching) es una herramienta de procesamiento de imágenes desarrollada por el equipo de gojasper, capaz de realizar conversiones de efectos de imagen de manera eficiente. No solo cuenta con una potente capacidad de eliminación de objetos, permitiendo a los usuarios eliminar fácilmente elementos innecesarios de las fotos, sino que también permite ajustar la iluminación de forma flexible para crear el ambiente ideal. La idea innovadora de LBM radica en la operación en el espacio latente, lo que hace que la edición de imágenes sea más sencilla y eficiente, adecuada tanto para aficionados a la fotografía como para profesionales.

image.png

【Resumen de AiBase:】

🖌️ LBM tiene una potente capacidad de eliminación de objetos; los usuarios pueden eliminar elementos de interferencia en las fotos con un simple clic, simplificando el proceso de edición de imágenes.

☀️ La herramienta admite el ajuste de la iluminación; los usuarios pueden crear un efecto soleado en fotos tomadas en días nublados, mejorando el atractivo visual de las fotos.

🔧 LBM muestra un rendimiento excelente en varias tareas de conversión de imágenes, como la estimación de normales y profundidad, mostrando su amplio potencial de aplicación y escalabilidad.

Enlace de detalles:https://top.aibase.com/tool/lbm

6. Anthropic lanzará la función Harmony: permite que el asistente de IA se integre a la perfección con archivos locales

Anthropic está desarrollando una nueva función llamada Harmony, destinada a integrar el directorio de archivos locales en el entorno de trabajo de Claude. Esta innovación permitirá a los usuarios interactuar con los archivos de forma más fluida; el asistente de IA puede leer, indexar y analizar directamente el contenido del directorio. Harmony no solo admite el análisis y la modificación de archivos, sino que también ofrece una función de búsqueda basada en palabras clave, mostrando un gran potencial como asistente de codificación de IA.image.png

【Resumen de AiBase:】

✅ La función Harmony permitirá a los usuarios acceder sin problemas a los archivos locales, mejorando la capacidad de interacción de la IA.

🔍 Claude identificó con éxito varias vulnerabilidades de seguridad de código en las pruebas, mostrando su potente capacidad de análisis.

🧭 Anthropic también está desarrollando la función Compass, que podría admitir investigaciones profundas e integración de información.

7. Modelo de superresolución de imágenes de código abierto Thera: puede mejorar la nitidez de las imágenes, haciendo que la borrosidad quede "obsoleta"

Thera es un modelo de superresolución de código abierto desarrollado por la Escuela Politécnica Federal de Zúrich y la Universidad de Zúrich, capaz de mejorar la nitidez de las imágenes en cualquier múltiplo. No solo puede revivir fotos borrosas, sino que también, a través de un modelo de observación física integrado, reduce la distorsión de la imagen y presenta detalles más naturales.image.png

【Resumen de AiBase:】

✨ Thera admite el aumento de la superresolución a cualquier escala; los usuarios pueden personalizar el múltiplo de aumento para adaptarse a diversas necesidades.

🔍 El modelo de observación física integrado simula el proceso de formación de imágenes reales, reduciendo la distorsión y presentando detalles más realistas.

🌍 Como proyecto de código abierto, Thera se proporciona bajo la licencia Apache-2.0, promoviendo el intercambio y el desarrollo de la tecnología, y ofrece modelos preentrenados para facilitar su uso por parte de los usuarios.

Enlace de detalles:https://top.aibase.com/tool/thera

8. La función de eliminación de marcas de agua de imágenes de Google Gemini 2.0 Flash genera preocupación sobre los derechos de autor

El nuevo modelo Gemini 2.0 Flash de Google ha generado controversia por su capacidad para eliminar marcas de agua de las imágenes, especialmente en relación con el contenido de conocidas bibliotecas de imágenes como Getty Images. Si bien el modelo muestra un excelente rendimiento en la generación y edición de imágenes, la falta de restricciones de uso ha generado preocupaciones sobre los derechos de autor. La funcionalidad de Gemini 2.0 Flash parece ser más potente, pero bajo la ley de derechos de autor de EE. UU., la eliminación de marcas de agua sin consentimiento podría considerarse ilegal.

image.png

【Resumen de AiBase:】

🚫 Gemini 2.0 Flash puede eliminar marcas de agua de las imágenes; su potente funcionalidad genera controversia sobre los derechos de autor.

💬 Otros modelos de IA, como Claude 3.7 Sonnet y GPT-4o, se niegan a eliminar marcas de agua, considerando que esta acción es inmoral y posiblemente ilegal.

⚖️ Bajo la ley de derechos de autor de EE. UU., la eliminación de marcas de agua sin el consentimiento del propietario original suele considerarse ilegal; Google no ha respondido a las preguntas planteadas.

9. Cohere lanza el modelo de IA Command A; funciona eficientemente con dos GPU, reduciendo el coste de implementación para empresas en un 50%

El modelo Command A de Cohere, con su baja demanda de hardware de solo dos GPU y un ahorro de costes de hasta el 50%, rompe las barreras tradicionales de la IA de alto rendimiento. Su diseño de 1110 mil millones de parámetros, combinado con una arquitectura Transformer optimizada, permite a las empresas disfrutar de una ventana de contexto extremadamente larga y soporte multilingüe al manejar tareas complejas.image.png

【Resumen de AiBase:】

💻 El modelo Command A funciona eficientemente con solo dos GPU, reduciendo significativamente las necesidades de hardware de las empresas.

🌍 Admite hasta 23 idiomas y dialectos regionales, ayudando a las empresas a expandirse a los mercados globales.

💰 El coste de implementación privada se reduce hasta en un 50%, ofreciendo a las empresas una notable ventaja financiera.

Enlace de detalles:https://huggingface.co/CohereForAI/c4ai-command-a-03-2025

10. ¡El primer framework de desarrollo de agentes de producción nacional! La comunidad Cangjie lanza Cangjie Magic, con soporte nativo para todas las plataformas, incluyendo HarmonyOS!

Cangjie Magic es un innovador framework de desarrollo de agentes, basado en el lenguaje de programación Cangjie de desarrollo propio de Huawei, cuyo objetivo es remodelar la forma de desarrollar agentes. Este framework, a través de su singular arquitectura Agent DSL, el soporte nativo del protocolo de comunicación MCP y el motor de programación inteligente, proporciona una gestión integral del ciclo de vida del agente.

image.png

【Resumen de AiBase:】

🛠️ La arquitectura Agent DSL original permite la programación declarativa del modelado de agentes, mejorando la eficiencia del desarrollo.

🌐 Admite de forma nativa el protocolo de comunicación MCP, garantizando una comunicación y colaboración eficientes entre agentes.

📱 Se planea implementar la capacidad de llamada de agentes para Android e iOS en el tercer trimestre, ampliando los escenarios de aplicación para dispositivos móviles.

Enlace de detalles:https://gitcode.com/Cangjie-TPC/CangjieMagic

11. Directivo de OpenAI predice: la IA superará a los programadores humanos a finales de 2025

En un podcast reciente, el director de producto de OpenAI, Kevin Vill, afirmó que se espera que la inteligencia artificial supere a los programadores humanos a finales de 2025, especialmente en las pruebas de referencia de codificación. Destacó el rápido progreso de los modelos de codificación de IA y mencionó que los modelos avanzados de Anthropic y OpenAI están impulsando la automatización de la codificación. Con la mejora de la capacidad de razonamiento, el rendimiento de la IA en el campo de la programación también está mejorando constantemente; en el futuro, casi todo el código podría ser generado por IA.

image.png

【Resumen de AiBase:】