¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del ámbito de la IA, con enfoque en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.
Conozca los nuevos productos de IA https://top.aibase.com/
1. Alibaba lanza “Nuevo Quark”, su aplicación insignia de IA, con una actualización completa a “Marco súper IA”
El 13 de marzo, Alibaba lanzó su aplicación insignia de IA completamente renovada: Nuevo Quark. Esta aplicación, basada en el avanzado razonamiento y el gran modelo multimodal de Alibaba Tongyi, integra múltiples funciones de IA para ofrecer a los usuarios una experiencia inteligente sin interrupciones. Nuevo Quark no solo permite conversaciones inteligentes, sino que también cuenta con capacidades de pensamiento y ejecución profundos, satisfaciendo las necesidades de los usuarios en diversos escenarios. Con esta innovación, Alibaba consolida aún más su posición de liderazgo en el campo de las aplicaciones de IA y sienta las bases para el futuro desarrollo tecnológico.
【Resumen de AiBase:】
🤖 Nuevo Quark integra varias funciones, incluyendo conversación con IA, pensamiento profundo y búsqueda profunda, ofreciendo un servicio integral.
📊 A través de un sistema central inteligente, Nuevo Quark puede identificar automáticamente las instrucciones del usuario y ejecutarlas en profundidad.
🌐 Alibaba planea integrar rápidamente los últimos logros del modelo de la serie Tongyi en Nuevo Quark para mejorar sus funciones.
2. Google lanza código abierto para Gemma-3, su modelo multimodal de nueva generación: rendimiento excepcional, costo reducido en un 10%
El nuevo modelo multimodal Gemma-3 de Google, recientemente lanzado, ha llamado la atención por su bajo costo y alto rendimiento. Este modelo admite varios tamaños de parámetros, hasta un máximo de 27 mil millones de parámetros, y solo necesita una tarjeta gráfica H100 para una inferencia eficiente, lo que reduce significativamente la demanda de potencia de cálculo. Gemma-3 ha demostrado un rendimiento excelente en las evaluaciones de modelos de conversación, admite el procesamiento de textos largos y datos multimodales, mostrando una potente capacidad de procesamiento del lenguaje y un diseño de arquitectura innovador. Es uno de los modelos de alto rendimiento con menor requerimiento de potencia de cálculo en la actualidad.
【Resumen de AiBase:】
🔍 Gemma-3 es el nuevo modelo multimodal de código abierto de Google, con un rango de parámetros de 1 a 27 mil millones, y una reducción del 10% en la demanda de potencia de cálculo.
💡 El modelo utiliza un diseño de arquitectura innovador, procesando eficazmente contextos largos y datos multimodales, admitiendo el procesamiento simultáneo de texto e imágenes.
🌐 Gemma-3 admite el procesamiento de 140 idiomas y, después de la optimización del entrenamiento, ha demostrado un rendimiento excelente en múltiples tareas, mostrando una potente capacidad integral.
Enlace de detalles: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
3. Baidu lanza la versión Comate Zulu de Wenxin Fastcode y abre oficialmente la prueba beta pública
La versión Comate Zulu de Wenxin Fastcode, de Baidu, marca un gran avance en el campo de la programación inteligente. Esta versión, combinando la potente capacidad del gran modelo Wenxin y una gran cantidad de datos de programación, ofrece a los desarrolladores una experiencia de programación más eficiente. Los usuarios pueden interactuar con el sistema mediante lenguaje natural, construir proyectos rápidamente y comprender la lógica del código, mejorando considerablemente la eficiencia del desarrollo. La prueba beta pública se extenderá hasta el 28 de marzo, y los desarrolladores podrán experimentar esta innovadora función en los IDE principales.
【Resumen de AiBase:】
🛠️ Implementa las necesidades a través de lenguaje natural completo; no es necesario escribir código para construir proyectos automáticamente, admite la comunicación oral y la presentación de imágenes.
📊 Comprende rápidamente la lógica empresarial del repositorio de código, proporciona una organización de diagramas de arquitectura e inspiración inteligente, ayudando a los desarrolladores a familiarizarse rápidamente con nuevos proyectos.
⚙️ Construye automáticamente el entorno de desarrollo, admite la instalación automática de dependencias y el autoinicio del servicio, logrando la generación de extremo a extremo desde la necesidad hasta el código.
Enlace de detalles: https://comate.baidu.com
4. ByteDance Trae se integra con SiliconCloud, admitiendo varias API de modelos DeepSeek
La plataforma SiliconCloud se ha integrado oficialmente con Trae, el IDE de IA de ByteDance, mejorando la experiencia de programación de los desarrolladores. Los usuarios pueden integrar fácilmente varios modelos de codificación, incluyendo DeepSeek-R1, V3, etc., para satisfacer diferentes necesidades. La plataforma también ofrece servicios de API gratuitos para ayudar a los desarrolladores a lograr un proceso de desarrollo más eficiente. En el futuro, SiliconCloud continuará expandiendo la variedad de modelos y aplicaciones de colaboración, con el objetivo de brindar a los desarrolladores servicios más estables.
【Resumen de AiBase:】
🔧 Trae se integra con SiliconCloud, ofreciendo varios modelos de codificación eficientes para mejorar la experiencia de programación.
🔑 Los usuarios pueden agregar modelos fácilmente y obtener claves de API.
🚀 SiliconCloud se esfuerza por ofrecer servicios de API estables y expandirá la variedad de modelos en el futuro.
5. ¡Actualización impactante! Google AI Studio evoluciona: comprensión instantánea de videos de YouTube, creación de imágenes de IA manteniendo la coherencia de los personajes
La última actualización de Google AI Studio ha causado sensación en el mundo de la tecnología. Los usuarios ahora pueden comprender el contenido de los videos directamente a través de enlaces de YouTube, sin necesidad de descargar ni cargar. El modelo Gemini2.0Flash Experimental no solo destaca en el análisis de video, sino que también muestra una asombrosa coherencia en la generación de imágenes. El lanzamiento de estas funciones marca una importante transformación en el campo de las herramientas de IA de Google, y podría tener un profundo impacto en las herramientas de IA que dependen de técnicas de encapsulación simple.
【Resumen de AiBase:】
🎥 Google AI Studio ahora admite el análisis directo de enlaces de video de YouTube, permitiendo a los usuarios comprender rápidamente el contenido del video.
🖼️ Gemini2.0Flash exp destaca en la generación de imágenes, manteniendo la coherencia de los personajes en múltiples imágenes.
⚡ La actualización marca la transición de Google AI Studio de modelos básicos a herramientas de nivel de aplicación, impactando el ecosistema de herramientas de IA existentes.
Enlace de detalles: https://ai.google.dev/gemini-api/docs/vision?lang=python&hl=zh-cn#youtube
6. ¿Desafiando a Sora? Lu Cheng Technology lanza código abierto para el gran modelo de video Open-Sora 2.0, reduciendo costos y aumentando la velocidad
Open-Sora 2.0, lanzado por Lu Cheng Technology, desafía a los referentes del sector como OpenAI Sora, con un costo de entrenamiento de solo 200.000 dólares y un potente rendimiento con 11 mil millones de parámetros. Este modelo ha demostrado un rendimiento excelente en varias evaluaciones, especialmente en VBench, donde la diferencia de rendimiento con OpenAI Sora se redujo a 0,69 %. Las características de código abierto de Open-Sora 2.0 y su estrategia de entrenamiento eficiente ofrecen nuevas oportunidades para el campo de la generación de video, reduciendo el umbral para la generación de video de alta calidad y promoviendo el desarrollo del ecosistema de código abierto.
【Resumen de AiBase:】
💰 Bajo costo: Open-Sora 2.0 solo necesita 200.000 dólares para el entrenamiento, significativamente menor que el estándar del sector.
📈 Alto rendimiento: cuenta con 11 mil millones de parámetros, con un rendimiento cercano a OpenAI Sora, mostrando un rendimiento excelente en las evaluaciones de VBench.
🌐 Código abierto y compartido: el código de entrenamiento de todo el proceso es de código abierto, impulsando el desarrollo conjunto de la tecnología de generación de video.
Enlace de detalles: https://github.com/hpcaitech/Open-Sora
7. Nuevo modelo de generación y edición de video VACE de Alibaba Tongyi: control de trayectorias de movimiento, reemplazo de sujetos, etc.
El equipo de Alibaba Tongyi Wan ha lanzado el nuevo modelo VACE, cuyo objetivo es reducir el umbral de producción de video y mejorar la eficiencia creativa. La función de generación de video condicional de VACE permite a los usuarios realizar rápidamente ideas creativas a través de descripciones de texto, como si contaran con un equipo de filmación de ensueño. Además, VACE cuenta con varias funciones de edición potentes, como el control de la trayectoria del movimiento de los objetos, el reemplazo del sujeto del video, la transferencia de estilo y la expansión inteligente de la imagen del video. Incluso los videos antiguos pueden recuperar su esplendor mediante la tecnología de re-renderizado de VACE, enriqueciendo enormemente las posibilidades de creación de video.
【Resumen de AiBase:】
🎬 El modelo VACE genera videos rápidamente a través de descripciones de texto, mejorando la eficiencia creativa.
🔄 Admite el control de la trayectoria del movimiento de los objetos y el reemplazo del sujeto del video, ofreciendo flexibilidad y variedad.
🖼️ Cuenta con funciones de expansión inteligente de la imagen del video y transferencia de estilo, enriqueciendo la expresión creativa.
Enlace de detalles: https://arxiv.org/pdf/2503.07598
8. Se lanza la versión web del asistente de IA de Li Xiang Auto, Li Xiang Tongxue: integración con la versión completa de DeepSeek R1
Li Xiang Auto ha lanzado oficialmente la versión web de su asistente de inteligencia artificial, Li Xiang Tongxue, marcando una mayor expansión en el campo de los servicios inteligentes. Este asistente se ha integrado con la versión completa de DeepSeek R1V3671B, ofreciendo una potente capacidad de respuesta y una colaboración de servicios entre escenas. Los usuarios pueden cambiar entre diferentes modelos, admitiendo la entrada de texto largo y la función de respuesta a preguntas con imágenes, mejorando la experiencia interactiva. La nueva función de interacción de imagen de Li Xiang Tongxue hace que la interacción del usuario sea más intuitiva. En el futuro, Li Xiang Auto continuará explorando más modelos de servicio innovadores para satisfacer las cambiantes necesidades de los usuarios.
【Resumen de AiBase:】
💻 La versión web de Li Xiang Tongxue ya está disponible, los usuarios pueden usarla en computadoras de escritorio, expandiendo el ecosistema de servicios inteligentes.
🔍 Integrada con la versión completa de DeepSeek R1V3671B, admite el cambio de modelos y la función de pensamiento profundo, mejorando la capacidad de respuesta a preguntas.
🖼️ Admite la entrada de texto largo de hasta mil caracteres y la función de respuesta a preguntas con imágenes, ofreciendo una experiencia de interacción del usuario más potente.
9. Google Gemini 2.0 Flash lanza la función nativa de generación de imágenes multimodales: admite edición en tiempo real mediante diálogo de varias rondas
El recientemente lanzado Google Gemini 2.0 Flash ha introducido la tecnología de generación de imágenes nativa en el campo de la generación de imágenes de IA, mejorando significativamente la eficiencia y precisión de la generación. A diferencia de los métodos anteriores que dependen de grandes modelos de lenguaje, Gemini 2.0 Flash ha logrado la integración directa de la generación de imágenes y la comprensión de texto, haciendo que el proceso creativo sea más fluido. Su función de edición mediante diálogo de varias rondas y su potente reserva de conocimientos permiten a los usuarios ajustar las imágenes generadas en tiempo real, satisfaciendo en gran medida las necesidades creativas de individuos y empresas.
【Resumen de AiBase:】
🎨 Generación de imágenes nativa: Gemini 2.0 Flash integra directamente la función de generación de imágenes, evitando la distorsión de la información y mejorando la eficiencia y precisión de la generación.
🖌️ Edición en tiempo real: admite la edición mediante diálogo de varias rondas, los usuarios pueden usar lenguaje natural para sugerir modificaciones, y la IA puede responder y ajustar las imágenes al instante.
📈 Aplicaciones empresariales: proporciona herramientas potentes para equipos de marketing y desarrolladores, generando contenido rápidamente, reduciendo los costos de diseño y mejorando la eficiencia del trabajo.
10. Remade AI lanza código abierto para 8 efectos LoRA de Wan2.1, iniciando una nueva ola de creación de videos con IA
Remade AI ha lanzado 8 efectos LoRA de código abierto basados en el modelo Wan2.1 en la plataforma Hugging Face, atrayendo una gran atención del mundo de la tecnología. Estos módulos de efectos no solo pueden convertir imágenes estáticas en videos dinámicos, sino que también aportan nuevas posibilidades creativas a la generación de videos con IA. A través de las redes sociales, los usuarios han expresado su asombro por los efectos de estos módulos, considerando que impulsarán la democratización de la tecnología de IA y acelerarán la popularización de la creación de videos.
【Resumen de AiBase:】
🎨 Los 8 nuevos efectos LoRA incluyen compresión, conversión en pastel, expansión, etc., enriqueciendo las posibilidades de creación de videos con IA.
💻 El modelo Wan2.1, con su alta eficiencia y multifuncionalidad, se ha convertido en una opción superior en el campo de la generación de video.