¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentamos los temas más relevantes del campo de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA aquí: https://top.aibase.com/

1. OpenAI lanza una nueva API de generación de imágenes para ChatGPT: los desarrolladores pueden integrar fácilmente la función de dibujo de IA

OpenAI lanzó recientemente la API de generación de imágenes gpt-image-1, que permite a los desarrolladores integrar fácilmente esta tecnología avanzada en diversas aplicaciones. Desde su lanzamiento, esta función ha atraído a una gran cantidad de usuarios, generando más de 700 millones de imágenes. gpt-image-1 no solo admite varios estilos de imagen, sino que también incorpora protecciones de seguridad para garantizar que el contenido generado cumpla con las políticas de la empresa. Además, su estructura de precios razonable permite a los desarrolladores generar imágenes de alta calidad a bajo costo, lo que representa un importante avance en el campo de la generación de imágenes con IA.

image.png

【Resumen de AiBase:】

🌟 OpenAI lanza la API de generación de imágenes gpt-image-1, que los desarrolladores pueden integrar fácilmente en sus aplicaciones.

🖼️ Los usuarios generaron más de 700 millones de imágenes en la primera semana tras el lanzamiento de la nueva función, atrayendo a millones de nuevos usuarios.

💰 El costo de generación de imágenes con gpt-image-1 es razonable, tan bajo como 2 centavos de dólar por imagen.

2. Gemini de Google supera los 350 millones de usuarios activos mensuales, pero aún mantiene una brecha con ChatGPT

El chatbot de inteligencia artificial Gemini de Google ha experimentado un crecimiento de usuarios significativo en el último año, alcanzando los 350 millones de usuarios activos mensuales y pasando de 9 millones a 35 millones de usuarios activos diarios. Sin embargo, Gemini aún se encuentra por detrás del líder del mercado, ChatGPT, que cuenta con 600 millones de usuarios activos mensuales. La colaboración de Google con Samsung y la integración de productos han impulsado el rápido crecimiento de Gemini, lo que demuestra la creciente demanda de herramientas de chat de IA. En el futuro, la capacidad de Google para mejorar la experiencia y las funciones de Gemini será clave para reducir la brecha con sus competidores.

【Resumen de AiBase:】

🌟 Gemini cuenta con 350 millones de usuarios activos mensuales y 35 millones de usuarios activos diarios.

🤖 ChatGPT cuenta con 600 millones de usuarios activos mensuales, manteniéndose a la cabeza de Gemini.

📈 La colaboración de Google con Samsung y la integración de productos impulsan el rápido crecimiento de Gemini.

3. OpenAI prevé un aumento de ingresos a 125 000 millones de dólares para 2029

Las recientes previsiones de ingresos de OpenAI indican que para 2029, sus ingresos totales alcanzarán los 125 000 millones de dólares, impulsados principalmente por los ingresos de los agentes de IA y los canales. En 2023, OpenAI registró ingresos de 3700 millones de dólares y más de 500 millones de usuarios activos semanales, lo que demuestra un crecimiento notable. La empresa prevé alcanzar el equilibrio de caja en los próximos cuatro años y aumentar su margen bruto a casi el 70 %. Estas previsiones han atraído la atención de los inversores y se espera que impulsen el rápido desarrollo de OpenAI.

【Resumen de AiBase:】

🌟 Se prevé que los ingresos de OpenAI alcanzarán los 125 000 millones de dólares para 2029, con los agentes de IA como principal motor de crecimiento.

📈 Los ingresos de 2023 alcanzaron los 3700 millones de dólares, con más de 500 millones de usuarios activos semanales, lo que demuestra un crecimiento notable.

💰 Se prevé que en los próximos cuatro años se alcance el equilibrio de caja y que el margen bruto aumente a casi el 70 %.

4. Ostris lanza Flex.2-preview, un modelo de difusión de 8 000 millones de parámetros que revoluciona el flujo de trabajo de ComfyUI

El equipo de Ostris lanzó Flex.2-preview, un modelo de difusión de texto a imagen basado en 800 millones de parámetros, diseñado para optimizar el flujo de trabajo de ComfyUI. Este modelo destaca por su capacidad de control en la generación de imágenes, admite diversas funciones como la reparación de imágenes y el control de profundidad, se ha lanzado en código abierto en Hugging Face y ha atraído rápidamente la atención de la comunidad de creación de arte con IA. Su diseño ligero y su capacidad de inferencia eficiente lo convierten en una herramienta ideal para el diseño creativo y las aplicaciones comerciales, mostrando el ilimitado potencial de la creación de arte con IA en el futuro.

image.png

【Resumen de AiBase:】

🎨 Compatibilidad con control universal: control integrado de líneas, poses y profundidad para guiar con precisión los resultados de generación, adecuado para diversas necesidades creativas.

🖼️ Capacidad de reparación de imágenes: admite la reparación avanzada de imágenes, los usuarios pueden reemplazar o reparar el contenido mediante máscaras, mejorando la flexibilidad creativa.

⚙️ Integración con ComfyUI: el modelo está optimizado para ComfyUI, proporcionando compatibilidad con el flujo de trabajo de nodos, simplificando la configuración de tareas complejas.

Enlace de detalles: https://huggingface.co/ostris/Flex.2-preview

5. NVIDIA presenta el LLM multimodal Describe Anything: genera descripciones detalladas de áreas específicas

El modelo Describe Anything3B (DAM-3B) del equipo de IA de NVIDIA ha llamado la atención en el campo del aprendizaje multimodal. Este modelo puede generar descripciones detalladas de áreas específicas de imágenes o videos que el usuario especifique, superando las limitaciones del etiquetado de imágenes tradicional. Mediante el código abierto y los conjuntos de datos, DAM-3B proporciona a los desarrolladores recursos abundantes, lo que promueve la investigación y las aplicaciones de la IA multimodal, mostrando un amplio potencial en campos como la educación, la atención médica y la creación de contenido.

【Resumen de AiBase:】

🖌️ DAM-3B tiene capacidad de descripción por zonas, capaz de generar descripciones detalladas según la zona especificada por el usuario, mejorando la precisión y la riqueza de la descripción.

🔓 NVIDIA ha lanzado en código abierto el código, los pesos del modelo y los conjuntos de datos de DAM-3B, promoviendo la transparencia y la colaboración de la comunidad en la investigación de IA multimodal.

🌐 El modelo muestra un amplio potencial de aplicación en múltiples campos, como la creación de contenido, la interacción inteligente y la tecnología de accesibilidad, promoviendo el progreso de la inclusión social.

Enlace de detalles: https://github.com/NVlabs/describe-anything

6. Nano AI lanza el kit de herramientas universal MCP, que simplifica la integración y la llamada de herramientas de IA

El kit de herramientas universal MCP lanzado por Nano AI tiene como objetivo simplificar la complejidad de la configuración del Protocolo de Contexto de Modelo, proporcionando una solución integral. Este kit de herramientas preconfigura más de 100 servicios MCP y 18 claves de API comunes, y admite diversas funciones como la generación de imágenes, audio y video. Su lanzamiento ha generado un gran interés en la comunidad de desarrolladores de IA, con comentarios positivos de la comunidad que consideran que su eficiencia y facilidad de uso mejoran significativamente la productividad de los desarrolladores.

6388108570168340928723655.jpg

【Resumen de AiBase:】

🔧 Preconfigura más de 100 servicios MCP, los desarrolladores pueden llamarlos directamente sin necesidad de configuración manual, reduciendo el umbral de entrada.

🔑 Incorpora 18 claves de API comunes, los usuarios pueden ahorrarse los pasos engorrosos de obtener las claves por sí mismos, simplificando la configuración inicial.

🌐 Admite la generación multimodal, generando imágenes, audio y video mediante instrucciones de lenguaje natural, mejorando la eficiencia creativa.

Enlace de detalles: https://bot.n.cn/download?src=AIBotCode

7. El asistente de código CodeBuddy de Tencent Cloud lanza el agente de desarrollo de software Craft

Tencent Cloud lanzó el 24 de abril una versión actualizada del asistente de código CodeBuddy, presentando el agente de desarrollo de software Craft. Esta herramienta eleva la programación con IA desde la simple finalización de código hasta la entrega de proyectos, mejorando significativamente la eficiencia del desarrollo. Los desarrolladores solo necesitan introducir sus necesidades en lenguaje natural, y Craft generará automáticamente el código completo del proyecto, además de ser compatible con los IDE principales. Craft también admite el protocolo MCP, lo que permite la integración perfecta de código para pruebas, compilación e implementación, siendo compatible con el ecosistema de Tencent y facilitando la colaboración eficiente en equipo.

image.png

【Resumen de AiBase:】

🚀 El agente inteligente Craft puede convertir las necesidades de los desarrolladores en lenguaje natural en código de proyecto completo, simplificando enormemente el flujo de trabajo de desarrollo.

🔗 Admite el protocolo MCP, lo que permite que el código generado por IA se integre perfectamente en las etapas de prueba e implementación, mejorando la coherencia del desarrollo.

🧩 CodeBuddy se utiliza ampliamente en el interior de Tencent, con un 85 % de los desarrolladores que utilizan esta herramienta, mejorando significativamente la eficiencia general del desarrollo.

Enlace de detalles: https://cnb.cool

8. Kunlun Wanwei lanza en código abierto la versión 2.0 de Skywork-R1V2.0

Kunlun Wanwei lanzó el 24 de abril su modelo de inferencia multimodal Skywork-R1V2.0, mejorando significativamente la capacidad de razonamiento visual y de texto, especialmente en problemas de ciencias de nivel universitario y escenarios de tareas generales. Este modelo ha batido récords SOTA de código abierto en varias pruebas de referencia autorizadas, mostrando una capacidad comparable a la de los modelos comerciales de código cerrado. El lanzamiento en código abierto de R1V2.0 no solo refleja la capacidad técnica de Kunlun Wanwei en el campo multimodal, sino que también proporciona a los desarrolladores e investigadores de todo el mundo herramientas potentes, impulsando la construcción del ecosistema multimodal.

image.png

【Resumen de AiBase:】

🔍 R1V2.0 destaca en el razonamiento de problemas de ciencias en chino, convirtiéndose en un asistente gratuito para resolver problemas de matemáticas, batiendo varios récords SOTA de código abierto.

⚙️ Emplea el modelo de recompensa Skywork-VL Reward y el mecanismo de optimización de preferencias mixtas para mejorar la capacidad de adaptación del modelo en múltiples tareas y dominios.

🌍 Kunlun Wanwei se dedica a promover el código abierto y la innovación; el lanzamiento en código abierto de R1V2.0 proporciona un nuevo modelo base para el desarrollo de AGI, y en el futuro continuará lanzando modelos y conjuntos de datos líderes.

Enlace de detalles: https://github.com/SkyworkAI/Skywork-R1V

9. Zhipu anuncia una reducción de precios en varios productos de modelos grandes, con una reducción del 90 % en GLM-4-Plus

La plataforma abierta Zhipu BigModel anunció el 24 de abril un importante ajuste de precios en varios de sus productos de modelos grandes, entrando en la "era de los miles de millones", permitiendo a las empresas acceder a tecnologías de IA avanzadas a bajo costo. Este ajuste incluye varios productos como GLM-4-FlashX, la serie GLM-Z1 y GLM-4-Plus, especialmente GLM-4-Plus, con una reducción de precio del 90 %. Esta medida tiene como objetivo reducir el umbral de uso, satisfacer las necesidades de diversos sectores como las finanzas, internet y la educación, e impulsar la aplicación generalizada de la tecnología de modelos grandes en el mercado.

6388109073699302485969311.png

【Resumen de AiBase:】

🚀 El precio del modelo GLM-4-FlashX es de solo 10 yuanes por cada 100 millones de tokens, con una velocidad de inferencia comparable a la de GPT-4 y un rendimiento excelente.

💡 La velocidad de inferencia de GLM-Z1-AirX es 8 veces mayor que la de DeepSeek-R1, con una alta relación calidad-precio; el precio de GLM-Z1-Air es solo 1/30 del de DeepSeek-R1.

📉 El precio de GLM-4-Plus se ha reducido a 5 yuanes por millón de tokens, líder en el sector, satisfaciendo las necesidades de diversos escenarios sectoriales.

10. Se lanza JSON Visuals for ChatGPT, que desbloquea la creación de estilos de imagen ilimitados

El lanzamiento de JSON Visuals for ChatGPT ha aportado una nueva dimensión creativa a la generación de imágenes; los usuarios pueden utilizar más de 50 códigos estéticos y randomizadores para generar fácilmente contenido visual personalizado. Esta herramienta no solo mejora la flexibilidad de la generación, sino que también admite la salida de alta resolución, siendo adecuada para diversos campos como el arte digital, el marketing de marcas y el diseño de juegos. La comunidad ha respondido positivamente, esperando futuras optimizaciones y ampliaciones de las funciones.