Página de búsqueda de noticias y productos de IA

Tipo :

Información de Noticias
Aplicaciones de Productos
Casos de Monetización
Tutoriales de IA

2025-03-10 16:04:04.AIbase

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Recientemente, la comunidad Modelers lanzó oficialmente Step-Video y Step-Audio, dos modelos multimodales de código abierto desarrollados por Step-Video. Estos dos modelos se utilizan para la generación de video e interacción de voz, con el objetivo de proporcionar herramientas de IA más potentes para desarrolladores y empresas. El nombre completo del modelo Step-Video es Step-Video-T2V, un modelo de generación de video de código abierto, el más grande del mundo, con una capacidad de 30 mil millones de parámetros. Este modelo puede generar directamente videos de 20 segundos...

2025-03-09 11:04:41.AIbase

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Hedra ha presentado Character-3 y Hedra Studio, dos innovaciones que marcan un hito en la tecnología de avatares digitales. Estos avances permiten la inferencia conjunta de imagen, texto y audio, abriendo nuevas posibilidades para la creación de experiencias inmersivas y realistas en diversas aplicaciones.

2025-03-06 14:54:02.AIbase

Cohere lanza Aya Vision, un nuevo modelo de IA multimodal, en versiones de 32B y 8B

2025-03-06 14:46:43.AIbase

¡Gran avance en la recuperación multimodal!智源 publica el modelo de vector multimodal BGE-VL

El 6 de marzo, el Instituto de Inteligencia Artificial de Beijing anunció la publicación del modelo de vector multimodal BGE-VL, un logro que marca un gran avance en el campo de la recuperación multimodal. El modelo BGE-VL ha logrado los mejores resultados en tareas de recuperación multimodal como la recuperación de imágenes y texto y la recuperación de imágenes combinadas, mejorando significativamente el rendimiento de la recuperación multimodal.

2025-03-04 09:41:14.AIbase

Huake Byte lanza Liquid: Redefiniendo la generación y comprensión de modelos multimodales

2025-03-03 16:52:09.AIbase

Shenzhen lanza un plan de acción para la innovación tecnológica en robots inteligentes encarnados, centrado en la construcción de modelos grandes multimodales

2025-02-28 14:00:59.AIbase

Baidu lanzará el modelo de lenguaje grande Wenxin 4.5 el 16 de marzo con capacidades multimodales nativas y de pensamiento profundo

Baidu ha anunciado que su último modelo de lenguaje grande, Wenxin 4.5, se lanzará oficialmente el 16 de marzo. Según los informes, Wenxin es una parte importante de la estrategia de inteligencia artificial de Baidu y, desde su lanzamiento inicial hace dos años, ha tenido un profundo impacto en todo el mundo.

2025-02-27 15:56:53.AIbase

Se espera que Baidu Ernie 4.5 se lance a mediados de marzo, mejorando el razonamiento y las capacidades multimodales

Baidu está preparando el lanzamiento de su próxima generación de modelos de inteligencia artificial, y se espera que el lanzamiento oficial de la versión 4.5 de Ernie sea a mediados de marzo. Según fuentes internas, la nueva versión logrará mejoras significativas en varios campos principales, incluido el razonamiento, lo que representa otro avance importante en la tecnología de IA de Baidu.

2025-02-27 09:38:31.AIbase

Microsoft lanza Phi-4, un modelo multimodal y miniaturizado que mejora el procesamiento de voz, visión y texto

2025-02-26 11:11:32.AIbase

Magma: El agente de IA multimodal de código abierto de Microsoft que revoluciona las compras y la robótica

Microsoft ha lanzado Magma, un agente de IA multimodal de código abierto que promete transformar la experiencia de compra y el control de robots. Magma ofrece nuevas posibilidades en la interacción entre humanos y máquinas, abriendo un camino para interfaces más intuitivas y eficientes.

2025-02-26 09:13:48.AIbase

Microsoft lanza el agente de IA multimodal de código abierto "Magma": capaz de realizar pedidos automáticos y predicciones de comportamiento

Recientemente, Microsoft lanzó oficialmente en su sitio web un modelo base de agente de IA multimodal llamado "Magma". Este nuevo tipo de inteligencia artificial tiene la capacidad de abarcar tanto el mundo digital como el físico, pudiendo procesar simultáneamente varios tipos de datos como imágenes, videos y texto. A diferencia de los asistentes de IA tradicionales, la característica única de Magma es su función de predicción conductual, lo que le permite comprender con mayor precisión las intenciones y el comportamiento futuro de las personas u objetos en un video. Las aplicaciones de Magma son muy amplias; los usuarios pueden utilizar esta IA para...

2025-02-25 11:15:31.AIbase

Familia de mapaches de SenseTime totalmente mejorada: fusión multimodal, replica páginas web en 10 segundos

El 25 de febrero, SenseTime anunció en la Conferencia Mundial de Desarrolladores 2025 la actualización completa de su herramienta de productividad de IA, la familia de mapaches de SenseTime. Esta actualización refuerza aún más sus capacidades multimodales, acelera la implementación de aplicaciones de IA y avanza hacia un agente de IA. La mejora no solo incrementa el rendimiento de la herramienta, sino que también devuelve a la IA a su misión más básica: ser una poderosa herramienta de productividad.

2025-02-21 17:23:48.AIbase

Modelo de lenguaje grande multimodal de la serie Ovis2 de Alibaba International, de código abierto, con seis versiones

Ovis2 es la última versión del modelo de la serie Ovis, presentado por el equipo de internacionalización de Alibaba. En comparación con la versión anterior 1.6, Ovis2 ha mejorado significativamente en la construcción de datos y los métodos de entrenamiento. No solo refuerza la densidad de capacidad de los modelos a pequeña escala, sino que también mejora significativamente la capacidad de razonamiento de la cadena de pensamiento (CoT) mediante el ajuste de instrucciones y el aprendizaje de preferencias. Además, Ovis2 ha introducido la capacidad de procesamiento de video e imágenes múltiples, y ha mejorado la capacidad multilingüe y la capacidad OCR en escenarios complejos, mejorando significativamente la utilidad del modelo.

2025-02-21 15:58:33.AIbase

Lanzamiento de los dos nuevos modelos multimodales de código abierto de Step-Star en la plataforma ModelScope de Alibaba Cloud

¡La atención de los desarrolladores de todo el mundo se centra de nuevo en China! En la muy esperada Conferencia Global de Desarrolladores (GDC), la comunidad ModelScope de Alibaba Cloud anunció el lanzamiento de dos nuevos modelos multimodales de código abierto de Step-Star, incluyendo Step-Video-T2V, el modelo de generación de vídeo de código abierto con mayor cantidad de parámetros del mundo, y Step-Audio, el primer modelo de interacción de voz de código abierto a nivel de producto de la industria. Esta noticia ha revolucionado la comunidad de código abierto de IA a nivel mundial, demostrando una vez más la sólida capacidad de innovación de China en el campo de la inteligencia artificial. Como la plataforma de IA más grande de China...

2025-02-21 10:31:23.AIbase

腾讯元宝推出「Comprensión de imágenes」habilidad con la combinación de modelos «Hun Yuan + DeepSeek»

Según se ha informado, la clave de esta actualización de Tencent Yuanbao radica en la aplicación de la tecnología de combinación de modelos «Hun Yuan + DeepSeek». Anteriormente, DeepSeek desempeñaba principalmente el papel de extracción de información, similar a un «escáner». Sin embargo, gracias al apoyo de la tecnología multimodal Hun Yuan de Tencent, DeepSeek ahora puede comprender verdaderamente los detalles, el ambiente e incluso los significados ocultos de las imágenes. Este cambio permite a Tencent Yuanbao «entender» las imágenes y proporcionar su propio análisis e interpretación.

2025-02-20 16:44:24.AIbase

VLM-R1: Una nueva era para los modelos de lenguaje visual. Un gran avance en la IA multimodal

Recientemente, el exitoso lanzamiento del proyecto VLM-R1 ha traído una nueva esperanza a este campo. Este proyecto representa la exitosa transferencia del método R1 del equipo DeepSeek a los modelos de lenguaje visual, lo que significa que la comprensión de la IA del contenido visual entrará en una nueva fase. La inspiración de VLM-R1 proviene del método R1 de DeepSeek, publicado el año pasado, que utiliza la optimización del procesamiento de recompensas generativas (GRPO, por sus siglas en inglés).

2025-02-20 09:30:11.AIbase

Microsoft presenta Magma: un modelo de IA multimodal que integra visión, lenguaje y habilidades de toma de decisiones

Recientemente, el equipo de investigación de Microsoft, en colaboración con investigadores de varias universidades, ha presentado un modelo de IA multimodal llamado "Magma". Este modelo está diseñado para procesar e integrar varios tipos de datos, como imágenes, texto y vídeo, para realizar tareas complejas en entornos digitales y físicos. Con los avances tecnológicos, los agentes de IA multimodales se están utilizando ampliamente en robótica, asistentes virtuales y automatización de interfaces de usuario. Los sistemas de IA anteriores se centraban a menudo en la comprensión de la visión-lenguaje o en la manipulación robótica, lo que dificultaba la combinación de ambos.

2025-02-18 08:55:51.AIbase

¡El mejor efecto! Modelo de generación de video Step-Video-T2V de código abierto de Step-Star

Hoy, Step-Star y Geely Automobile Group anunciaron conjuntamente la publicación de código abierto de dos modelos multimodales grandes de la serie Step de Step, el modelo de generación de video Step-Video-T2V y el modelo de voz Step-Audio. Entre ellos, el modelo de generación de video Step-Video-T2V de Step ocupa un lugar líder en el mundo tanto en cantidad de parámetros como en rendimiento. Este modelo tiene 30 mil millones de parámetros y puede generar directamente videos de alta calidad con 204 fotogramas y una resolución de 540P, lo que garantiza una alta densidad de información y una fuerte coherencia en el contenido generado. Los resultados de la evaluación muestran que...

2025-02-13 16:48:41.AIbase

Baidu Ernie completamente gratis: El plan de reembolso para miembros se publica oficialmente

Recientemente, Baidu Ernie anunció oficialmente que, a partir de las 00:00 del 1 de abril de 2024, sus servicios serán completamente gratuitos para todos los usuarios de PC y aplicaciones. Esto significa que los usuarios podrán disfrutar de las funciones del modelo más reciente de la serie Ernie sin ningún coste. Simultáneamente, Baidu Ernie ha lanzado oficialmente la función de búsqueda profunda a partir de hoy. Esta función tiene como objetivo proporcionar a los usuarios respuestas de contenido a nivel de experto mediante una capacidad de planificación de pensamiento y de uso de herramientas externas más potentes. No solo puede manejar tareas en una variedad de escenarios, sino que también ha implementado la entrada y salida multimodales.

2025-02-13 10:22:36.AIbase

Baidu Ernie Bot será completamente gratuito a partir del 1 de abril y lanzará una función de búsqueda profunda

El equipo de Modelo Ernie ha anunciado dos importantes actualizaciones que ofrecen a los usuarios una experiencia más cómoda y eficiente. Gracias a la continua iteración y optimización de costos del Modelo Ernie, Ernie Bot será completamente gratuito a partir de las 00:00 horas del 1 de abril. Los usuarios podrán experimentar el último modelo de la serie Ernie sin restricciones, tanto en la versión de escritorio como en la aplicación móvil. Esta medida sin duda aumentará la cobertura de usuarios y la influencia en el mercado de Ernie Bot.

Busca la dinámica global de productos de IA

Busca información global de IA y descubre nuevas oportunidades de IA

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Cohere lanza Aya Vision, un nuevo modelo de IA multimodal, en versiones de 32B y 8B

¡Gran avance en la recuperación multimodal!智源 publica el modelo de vector multimodal BGE-VL

Huake Byte lanza Liquid: Redefiniendo la generación y comprensión de modelos multimodales

Shenzhen lanza un plan de acción para la innovación tecnológica en robots inteligentes encarnados, centrado en la construcción de modelos grandes multimodales

Baidu lanzará el modelo de lenguaje grande Wenxin 4.5 el 16 de marzo con capacidades multimodales nativas y de pensamiento profundo

Se espera que Baidu Ernie 4.5 se lance a mediados de marzo, mejorando el razonamiento y las capacidades multimodales

Microsoft lanza Phi-4, un modelo multimodal y miniaturizado que mejora el procesamiento de voz, visión y texto

Magma: El agente de IA multimodal de código abierto de Microsoft que revoluciona las compras y la robótica

Microsoft lanza el agente de IA multimodal de código abierto "Magma": capaz de realizar pedidos automáticos y predicciones de comportamiento

Familia de mapaches de SenseTime totalmente mejorada: fusión multimodal, replica páginas web en 10 segundos

Modelo de lenguaje grande multimodal de la serie Ovis2 de Alibaba International, de código abierto, con seis versiones

Lanzamiento de los dos nuevos modelos multimodales de código abierto de Step-Star en la plataforma ModelScope de Alibaba Cloud

腾讯元宝推出「Comprensión de imágenes」habilidad con la combinación de modelos «Hun Yuan + DeepSeek»

VLM-R1: Una nueva era para los modelos de lenguaje visual. Un gran avance en la IA multimodal

Microsoft presenta Magma: un modelo de IA multimodal que integra visión, lenguaje y habilidades de toma de decisiones

¡El mejor efecto! Modelo de generación de video Step-Video-T2V de código abierto de Step-Star

Baidu Ernie completamente gratis: El plan de reembolso para miembros se publica oficialmente

Baidu Ernie Bot será completamente gratuito a partir del 1 de abril y lanzará una función de búsqueda profunda