Boletín diario de IA: Nuevo modelo de audio básico Kimi-Audio; Modelo de edición de imágenes de código abierto Step1X-Edit; Lanzamiento de la Supercaja de IA de Quark, fotografía y preguntas a Quark

¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA https://top.aibase.com/

1. Moonshot AI lanza Kimi-Audio: un nuevo referente en modelos de audio básicos de código abierto

Moonshot AI ha lanzado recientemente Kimi-Audio, un modelo de audio básico de código abierto diseñado para impulsar el desarrollo de tecnologías de comprensión, generación e interacción de audio. Este modelo se basa en la arquitectura Qwen2.5-7B, combinada con la tecnología Whisper, y admite diversas tareas de audio, como el reconocimiento de voz y las preguntas y respuestas de audio. Gracias a su entrenamiento con más de 1300 millones de horas de datos de audio diversos, Kimi-Audio ha demostrado un rendimiento excepcional en varias pruebas de referencia, superando a los modelos existentes.

【Resumen de AiBase:】
🎤 Kimi-Audio cuenta con una potente capacidad de procesamiento de audio multifuncional, que admite tareas como el reconocimiento de voz y las preguntas y respuestas de audio.
📊 Este modelo se entrenó con más de 1300 millones de horas de datos de audio diversos, mostrando un rendimiento excepcional.
🌍 La estrategia de código abierto de Kimi-Audio reduce el umbral de uso de la tecnología de IA de audio, promoviendo la democratización de la tecnología de IA a nivel mundial.
Enlace de detalles: https://github.com/MoonshotAI/Kimi-Audio

2. Step1X-Edit: un nuevo referente en la edición de imágenes de código abierto

Step1X-Edit es un modelo de edición de imágenes de código abierto desarrollado por el equipo de Stepfun AI, que combina modelos de lenguaje grande multimodales con transformadores de difusión, mostrando una potente capacidad de generación de imágenes. Su naturaleza de código abierto y su alto rendimiento han atraído una gran atención en la industria, especialmente por su excelente desempeño en la prueba de referencia GEdit-Bench. Este modelo ofrece a los creadores de contenido y desarrolladores herramientas potentes que impulsan el desarrollo de la tecnología de edición de imágenes.

【Resumen de AiBase:】
{'emoji': '🚀', 'content': 'Step1X-Edit combina modelos de lenguaje grande multimodales con transformadores de difusión para generar imágenes de alta calidad de manera eficiente.'}
{'emoji': '📊', 'content': 'Las pruebas de referencia de GEdit-Bench muestran que su rendimiento supera al de los modelos de código abierto existentes, acercándose al nivel de los modelos de código cerrado.'}
{'emoji': '💡', 'content': 'Su naturaleza de código abierto proporciona una base para la investigación y el desarrollo, impulsando la innovación y la popularización de la tecnología de edición de imágenes.'}
Enlace de detalles: https://huggingface.co/spaces/stepfun-ai/Step1X-Edit

3. La actualización de la supercaja de IA de Quark lanza la función "Preguntar a Quark con una foto": capaz de responder a cualquier cosa

El 25 de abril, la supercaja de IA de Quark, propiedad de Alibaba, lanzó la función "Preguntar a Quark con una foto". Esta innovación utiliza modelos de comprensión e inferencia visual para identificar y comprender rápidamente una variedad de problemas que los usuarios encuentran en la vida real. Los usuarios pueden obtener información y respuestas precisas a través de fotos, que abarcan múltiples campos, incluyendo explicaciones de artefactos, identificación de productos y análisis de salud.

【Resumen de AiBase:】
📸 La nueva función "Preguntar a Quark con una foto" se basa en la comprensión visual, pudiendo identificar rápidamente el contenido de las imágenes y proporcionar información relacionada.
🛒 Los usuarios pueden acceder directamente a los enlaces de productos similares en Taobao al subir imágenes de productos, mejorando la experiencia de compra.
🌍 Esta función admite preguntas y traducciones en varios idiomas, siendo adecuada para viajes, salud, trabajo y otros escenarios.

4. ¿Llega la IA inteligente de Apple a China? Se espera que la versión oficial de iOS 18.5 se lance en mayo

Apple lanzará la actualización oficial de iOS 18.5 a los usuarios chinos en mayo, trayendo la esperada función Apple inteligente. Esta función ya se lanzó en otras regiones, y los usuarios chinos la han estado esperando durante casi un mes. Apple inteligente es un sistema de IA basado en escenarios personales que ofrece diversos servicios, incluyendo la eliminación de fotos y respuestas inteligentes. Sin embargo, solo los modelos iPhone 15 Pro y la próxima serie iPhone 16 serán compatibles con esta función, y los usuarios deben asegurarse de tener suficiente espacio de almacenamiento en sus dispositivos.

【Resumen de AiBase:】
🆕 La función Apple inteligente se lanzará oficialmente a los usuarios chinos en mayo, marcando la entrada de Apple en la era de la IA generativa.
📸 Esta función incluye servicios diversos como eliminación de fotos, resumen de notificaciones y respuestas inteligentes, pero solo es compatible con iPhone 15 Pro y modelos superiores.
💾 Los usuarios deben asegurarse de tener al menos 7 GB de espacio de almacenamiento disponible, lo que puede ser un desafío para la gestión de almacenamiento de algunos usuarios.

5. Google AI publica 601 casos de uso de IA generativa del mundo real que abarcan diversas industrias

Google Cloud publicó recientemente un informe que muestra 601 casos de uso de IA generativa de empresas líderes en todo el mundo, lo que refleja el rápido desarrollo y la amplia aplicación de esta tecnología. En comparación con los 101 casos del año pasado, ha aumentado seis veces, abarcando múltiples industrias como la automotriz, financiera y médica. Estos casos no solo destacan la importancia de la IA generativa en las operaciones y la estrategia, sino que también muestran su potencial como parte de la estructura organizativa.

【Resumen de AiBase:】
🔍 601 casos de uso de IA generativa muestran la amplia aplicación de la tecnología en diversas industrias, un aumento de seis veces en comparación con el año pasado.
💼 La clara clasificación de los agentes de IA muestra los múltiples roles de la IA en el servicio al cliente, la productividad interna y la seguridad.
🚀 Los casos de uso reales en diversas industrias destacan la importante tendencia de la IA generativa de pasar de la experimentación a la producción.
Enlace de detalles: https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

6. Microsoft lanza el nuevo sistema operativo Agent UFO², integrando profundamente Windows y la automatización inteligente

La versión reciente de UFO² lanzada por Microsoft ha traído avances significativos en el campo de la automatización, especialmente en la integración profunda con el sistema Windows. La nueva versión puede llamar directamente a las API nativas de Windows, mejorando enormemente la eficiencia de ejecución de las tareas de automatización. En comparación con Operator de OpenAI, UFO² tiene una tasa de éxito significativamente mayor en múltiples escenarios de prueba, especialmente en el manejo de tareas complejas y operaciones entre aplicaciones.

【Resumen de AiBase:】
🚀 UFO² está profundamente integrado con el sistema Windows, pudiendo llamar directamente a las API nativas para mejorar la eficiencia de la automatización.
📊 La tasa de éxito de las tareas de automatización de UFO² es significativamente mayor que la de Operator de OpenAI, mostrando un excelente rendimiento.
🖥️ El nuevo modo de imagen en imagen permite aislar las tareas de automatización de las operaciones del usuario, mejorando la experiencia del usuario.
Enlace de detalles: https://github.com/microsoft/UFO?tab=readme-ov-file

7. OpenAI lanza una nueva versión de ChatGPT: GPT-4o, más inteligente e intuitivo

OpenAI ha realizado recientemente una importante actualización de su versión GPT-4o de ChatGPT, centrándose en cómo conservar mejor la memoria y mejorar las habilidades en las áreas de ciencia, tecnología, ingeniería y matemáticas (STEM). La nueva versión tiene como objetivo guiar las conversaciones de manera más eficiente hacia resultados productivos, al mismo tiempo que mejora el nivel de inteligencia y las características de personalidad del modelo. Aunque existen algunos problemas de transición "suave", OpenAI promete mejoras futuras. Además, los desarrolladores pueden optar por la nueva serie GPT-4.1 para una experiencia de API más estable.

【Resumen de AiBase:】
🌟 La versión actualizada de GPT-4o se ha optimizado en cuanto a la conservación de la memoria y las habilidades STEM.
🤖 OpenAI reconoce que el modelo presenta problemas de transición "suave" en algunos casos, y que se realizarán mejoras en el futuro.
🔧 Los desarrolladores pueden optar por la nueva serie GPT-4.1 para una experiencia de API más estable.

8. Ema lanza el nuevo modelo de lenguaje EmaFusion: supera a O3 y Gemini en costo y precisión

Ema ha lanzado el nuevo modelo de lenguaje EmaFusion, afirmando superar a varios modelos de IA conocidos en cuanto a costo y precisión. EmaFusion utiliza un sistema de juicio "en cascada" que puede equilibrar dinámicamente el costo y la precisión, y permite a los usuarios ajustar el modelo según las necesidades de la tarea. Su precisión alcanza el 94.3%, con un costo de funcionamiento significativamente reducido, convirtiéndose en una nueva opción para el desarrollo de IA empresarial.

【Resumen de AiBase:】
🌟 La precisión de EmaFusion alcanza el 94.3%, y su costo es una cuarta parte del promedio del mercado.
💡 EmaFusion puede descomponer inteligentemente tareas complejas y asignarlas al modelo de IA más adecuado.
🚀 Ema está colaborando con empresas líderes mundiales como KPMG y Hitachi para impulsar el desarrollo de la IA empresarial.
Enlace de detalles: https://www.ema.co/emafusion

9. Liquid AI lanza Hyena Edge, abriendo una nueva era para dispositivos de borde de teléfonos inteligentes

Liquid AI ha lanzado recientemente el nuevo modelo de convolución Hyena Edge, con el objetivo de proporcionar soluciones de inteligencia artificial más eficientes para teléfonos inteligentes y dispositivos de borde. Este modelo supera a los modelos Transformer++ tradicionales en eficiencia de cálculo y uso de memoria, especialmente adecuado para entornos con recursos limitados. Hyena Edge ha demostrado un excelente rendimiento en varias pruebas de referencia de modelos de lenguaje estándar, mostrando el potencial del diseño de arquitectura automatizada, y se planea lanzarlo como código abierto en el futuro para promover la popularización de la tecnología.

【Resumen de AiBase:】
🌟 Hyena Edge es un nuevo modelo de convolución lanzado por Liquid AI, diseñado específicamente para dispositivos de borde como teléfonos inteligentes.
🚀 Este modelo supera a los modelos Transformer++ tradicionales en eficiencia de cálculo y uso de memoria, siendo adecuado para entornos con recursos limitados.
📈 Hyena Edge ha demostrado un rendimiento excelente en varias pruebas de referencia de modelos de lenguaje estándar, y se planea lanzarlo como código abierto en el futuro para promover la popularización de la tecnología.
Enlace de detalles: https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices

10. LemonAI lanza Slice Live, un modelo de persona digital de audio y video en tiempo real

LemonAI ha lanzado recientemente su innovador producto Slice Live, el primer modelo de IA de audio y video en tiempo real del mundo. Los usuarios solo necesitan subir una foto para realizar videollamadas en tiempo real con personajes virtuales. Slice Live utiliza un modelo Transformer avanzado para renderizar cada píxel a 25 fotogramas por segundo, garantizando imágenes fluidas y realistas. Este producto ha demostrado un enorme potencial en los campos del entretenimiento y la educación, y en el futuro se expandirá a aplicaciones de RA, RV y metaverso, al tiempo que se prioriza la privacidad y la seguridad de los datos de los usuarios.

【Resumen de AiBase:】
📸 Los usuarios solo necesitan subir una foto para realizar videollamadas en tiempo real con personajes virtuales.
🎭 Slice Live ofrece experiencias interactivas inmersivas en los campos del entretenimiento y la educación, proporcionando contenido de aprendizaje vívido.
🔒 LemonAI se compromete a explorar continuamente la protección de la privacidad y garantizar la seguridad de los datos de los usuarios.

11. Zhipu y Shengshu Technology establecen una cooperación estratégica centrada en la innovación conjunta de grandes modelos

El 27 de abril, Zhipu, propiedad de la Universidad Tsinghua, y Shengshu Technology anunciaron una importante cooperación estratégica, con el objetivo de impulsar la innovación tecnológica y la aplicación industrial de los grandes modelos nacionales a través de la acumulación tecnológica de ambos en modelos de lenguaje grande y modelos de generación multimodales. Esta cooperación abarca varios aspectos, incluyendo la investigación y el desarrollo conjuntos, la interacción de productos y la integración de soluciones. Ambas partes se centrarán en varias industrias para impulsar la aplicación y el desarrollo de la tecnología de IA, mostrando el enorme potencial de los grandes modelos nacionales en innovación tecnológica y aplicación industrial.

【Resumen de AiBase:】
🤖 Zhipu y Shengshu Technology realizarán conjuntamente la investigación y el desarrollo de modelos de lenguaje grande y modelos de generación multimodales para impulsar la innovación tecnológica.
📈 La cooperación integrará las ventajas tecnológicas de ambas partes para crear soluciones industriales más competitivas.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Boletín diario de IA: Nuevo modelo de audio básico Kimi-Audio; Modelo de edición de imágenes de código abierto Step1X-Edit; Lanzamiento de la Supercaja de IA de Quark, fotografía y preguntas a Quark

站长之家

Este artículo proviene de AIbase Daily