Boletín diario de IA: OpenAI lanza Sora; el modelo multimodal gratuito GLM-4V-Flash de Zhishu AI; Tencent Cloud crea un asistente de código de IA

¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentamos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA aquí: https://top.aibase.com/

1. OpenAI lanza oficialmente Sora, generación ilimitada para usuarios de ChatGPT Pro, hasta 20 segundos de duración

OpenAI presentó Sora Turbo, su IA para generar videos, durante el evento "ship-mas". Sora Turbo permite generar videos de 1080p con una duración máxima de 20 segundos. Los usuarios pueden crear contenido a través de texto, imágenes o videos, con diversas opciones de estilo y edición. La plataforma destaca la expresión creativa y la seguridad del contenido, permitiendo a los usuarios explorar los videos de otros creadores.

【Resumen de AiBase:】
🌟 Sora Turbo admite la generación de videos de 20 segundos con una resolución máxima de 1080p.
🎨 Los usuarios pueden utilizar diversas herramientas para crear videos creativos.
🔒 Todos los videos generados incluyen una marca de agua y metadatos C2PA para garantizar la seguridad.
Enlace de detalles: https://sora.com/

2.智谱AI lanza el modelo multi-modal gratuito GLM-4V-Flash: mejora la precisión del procesamiento de imágenes

Zhihu Zhang Technology Co., Ltd. de Beijing lanzó su primera API multi-modal gratuita, GLM-4V-Flash, con el objetivo de mejorar la precisión del procesamiento de imágenes y reducir la dificultad de uso para los desarrolladores. Este modelo admite varios idiomas y cuenta con varias funciones avanzadas de procesamiento de imágenes, como la generación de descripciones de imágenes y las preguntas y respuestas visuales, pudiendo ofrecer soluciones precisas para sectores específicos.

【Resumen de AiBase:】
🌐 GLM-4V-Flash es la primera API multi-modal gratuita, compatible con 26 idiomas, que reduce la barrera de entrada para los desarrolladores.
📊 Cuenta con funciones avanzadas como la generación de descripciones de imágenes, la clasificación y el razonamiento visual, siendo aplicable a diversos sectores.
🚀 Este modelo ya ha demostrado una notable eficacia en sectores como las redes sociales, la educación y la belleza.
Enlace de detalles: https://www.bigmodel.cn/console/trialcenter

3. Asistente de código de IA de Tencent Cloud, basado en el modelo grande HunYuan

El asistente de código de IA lanzado por Tencent Cloud tiene como objetivo ayudar a los programadores a mejorar su eficiencia de desarrollo mediante la predicción y sugerencia de código. Esta herramienta utiliza el modelo grande HunYuan, capaz de comprender profundamente el contexto del código y ofrecer sugerencias precisas de autocompletado, superando los métodos tradicionales de coincidencia de palabras clave. Se adapta al estilo de codificación del programador y muestra una potente capacidad de asistencia de codificación en varios escenarios clave, como la generación de expresiones regulares, la creación rápida de páginas web y la interpretación clara de códigos complejos.

微信截图_20241210085836.png

【Resumen de AiBase:】
⚙️ El asistente de código de IA, al comprender profundamente el contexto del código, ofrece sugerencias precisas de autocompletado, mejorando significativamente la eficiencia de desarrollo.
📈 Este asistente puede aprender el estilo de codificación del programador, ofreciendo autocompletado personalizado y adaptado a sus hábitos.
🔍 Gracias al modelo grande HunYuan, el asistente de código de IA muestra una gran capacidad en varios escenarios, incluyendo la generación de expresiones regulares y la rápida adaptación a nuevas especificaciones de interfaz.

4. El modelo API V1.5 de Keling AI añade el modo estándar std, el modelo V1.0 añade el pincel de movimiento

Kuaishou Technology Co., Ltd. de Beijing lanzó recientemente el modo estándar del modelo API V1.5 de Keling AI y la función de "pincel de movimiento" del modelo V1.0. Estas actualizaciones buscan mejorar la experiencia del usuario y aumentar la flexibilidad y eficiencia de la creación artística. El modelo V1.5 ofrece una excelente relación calidad-precio gracias a sus resultados excepcionales y su rápida velocidad de procesamiento, mientras que la nueva función del modelo V1.0 permite a los usuarios especificar la trayectoria de movimiento de personas u objetos en una imagen, ofreciendo un control de movimiento más preciso y una representación más vívida.

【Resumen de AiBase:】
✨ El modo estándar del modelo V1.5 ofrece resultados excelentes y una velocidad de procesamiento rápida, mejorando la experiencia del usuario.
🖌️ La nueva función "pincel de movimiento" del modelo V1.0 permite a los usuarios especificar trayectorias de movimiento, logrando un control preciso.
🌟 Las nuevas funciones enriquecen las capacidades de Keling AI, ofreciendo nuevas posibilidades para la creación artística visual.

5. Se publica el código abierto del modelo multimodal de gran escala InternVL2.5 de Shusheng·Wanxiang, con un rendimiento comparable a GPT-4o

El modelo InternVL2.5 de Shusheng·Wanxiang, lanzado por el laboratorio de IA de Shanghai, ha logrado una precisión superior al 70% en los benchmarks de comprensión multimodal, convirtiéndose en el primer modelo de código abierto comparable a modelos comerciales como GPT-4o y Claude-3.5-Sonnet. Este modelo ha mejorado su rendimiento gracias a la tecnología de razonamiento de pensamiento en cadena, mostrando una potente escalabilidad en tiempo de prueba y capacidad de razonamiento multidisciplinar en varios campos.

【Resumen de AiBase:】
🚀 El modelo InternVL2.5 ha alcanzado una precisión superior al 70% en los benchmarks de comprensión multimodal, mostrando un excelente rendimiento.
📈 Gracias a la tecnología de razonamiento de pensamiento en cadena, este modelo ha logrado una mejora del rendimiento de 3,7 puntos porcentuales, mostrando una gran escalabilidad.
🌐 Su naturaleza de código abierto permite a investigadores y desarrolladores acceder y utilizar libremente este modelo, impulsando el desarrollo de la tecnología de IA multimodal.
Enlace de detalles: https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942

6. Swift Ventures publica el índice de empresas de IA, definiendo los estándares de inversión en inteligencia artificial

Swift Ventures ha lanzado un nuevo índice de empresas de inteligencia artificial para ayudar a los inversores a identificar las empresas que cotizan en bolsa que realmente invierten en tecnología de IA. Este índice analizó miles de datos y descubrió que, aunque las empresas mencionan con frecuencia la IA en sus informes financieros, son pocas las que realizan inversiones a gran escala. Las 90 empresas que se rastrean actualmente destacan por su investigación en IA y su densidad de talento, con una tasa de crecimiento anual muy superior a la media del mercado.

【Resumen de AiBase:】
📊 Este índice rastrea aproximadamente 90 empresas, basándose en la inversión en investigación de IA, la densidad de talento y los ingresos por IA para su puntuación.
💡 Las empresas que invierten en investigación de IA tienen un margen bruto medio el doble que las que no lo hacen, lo que muestra una correlación positiva entre la investigación y la capacidad de generar beneficios.
🚀 Algunas empresas discretas destacan en el ámbito de la IA, con tasas de crecimiento anual superiores al 50%, lo que indica que la transformación de la IA va más allá de las grandes empresas tecnológicas.

7. ¡Un salto cuántico asombroso! El chip Willow de Google resuelve en 5 minutos un cálculo que tardaría 13.800 millones de años, dejando a OpenAI boquiabierto

El chip cuántico Willow de Google ha logrado un avance revolucionario en el campo de la computación cuántica, reduciendo con éxito una tarea de cálculo que requeriría 10^25 años en un ordenador tradicional a tan solo 5 minutos, mostrando el enorme potencial de la tecnología cuántica. Gracias a un diseño de ingeniería preciso, Willow ha reducido significativamente el error de cálculo al tiempo que aumenta el número de cúbits, impulsando el avance de la computación cuántica.

【Resumen de AiBase:】
⚡ El chip Willow ha logrado un control de errores por debajo del umbral en la computación cuántica, reduciendo significativamente la tasa de errores.
⏱️ Su velocidad de cálculo es asombrosa: una tarea de 10^25 años solo tarda 5 minutos, mostrando el enorme potencial de la computación cuántica.
🔒 El avance de Willow ha suscitado preocupaciones sobre la seguridad de la criptografía, especialmente sobre la posible amenaza a las criptomonedas como Bitcoin.

8. ¡Una bendición para los solitarios! Llega la IA de rol de juego VR, un nuevo avance de la Universidad Tecnológica de Nanyang en la "creación de personas", ¡que canta, baila, interactúa y hasta conversa contigo!

El equipo de investigación de la Universidad Tecnológica de Nanyang de Singapur ha presentado SOLAMI, una tecnología de IA capaz de crear personajes virtuales 3D realistas que permiten la interacción en tiempo real, la comprensión del habla y la respuesta a las acciones. Esta tecnología utiliza el aprendizaje profundo para convertir el habla y las acciones del usuario en un lenguaje comprensible para los personajes virtuales, ofreciendo una experiencia de interacción natural y fluida. SOLAMI también cuenta con una interfaz de RV, permitiendo a los usuarios interactuar cara a cara con los personajes virtuales a través de dispositivos de RV.

【Resumen de AiBase:】
🎮 SOLAMI es un marco de modelado visual-lingüístico-de-acción social de extremo a extremo que permite una interacción natural entre el usuario y los personajes virtuales.
📊 El conjunto de datos sintético SynMSI proporciona datos abundantes de conversación y acción para el entrenamiento, resolviendo el problema de la falta de datos.
🌐 La interfaz de RV inmersiva de SOLAMI permite a los usuarios interactuar con los personajes virtuales de forma inmersiva, mejorando la experiencia social.
Enlace de detalles: https://solami-ai.github.io/

9. X declara oficialmente que el nuevo generador de imágenes de IA Aurora se lanzará a todos los usuarios esta semana

Recientemente, la red social X (anteriormente Twitter) lanzó Aurora, su nuevo generador de imágenes, entrenado con miles de millones de muestras y con capacidad para generar imágenes de alta calidad. Aunque inicialmente se retiró, ya está de nuevo en línea y se planea su lanzamiento a todos los usuarios en una semana. Aurora puede representar con precisión los detalles visuales del mundo real, aunque en las pruebas se ha observado que las imágenes generadas ocasionalmente presentan fusiones poco naturales y falta de detalles.

【Resumen de AiBase:】
✨ Aurora es un nuevo generador de imágenes desarrollado por xAI, con capacidad de renderizado fotográfico.
🌍 Actualmente está disponible en algunos países y se espera que se lance a todos los usuarios en una semana.
🔍 Las pruebas han revelado que las imágenes generadas por Aurora a veces presentan fusiones poco naturales y falta de detalles en los personajes.
Enlace de detalles: https://x.ai/blog/grok-image-generation-release

10. Reddit lanza una función de preguntas y respuestas con IA, ¡pero a los usuarios no les convence!

Reddit lanzó recientemente una nueva función llamada "Reddit Answers", que pretende mejorar la experiencia de búsqueda de los usuarios mediante un sistema de preguntas y respuestas impulsado por IA. Aunque esta función puede proporcionar respuestas basadas en las publicaciones y comentarios de la plataforma, la respuesta de los usuarios no ha sido positiva, y muchos consideran que la prioridad es mejorar la función de búsqueda. Actualmente, esta función solo se está probando en un grupo limitado de usuarios en Estados Unidos y aún no se ha lanzado en la plataforma Android.

【Resumen de AiBase:】
🔍 La nueva función "Reddit Answers" se está probando en un grupo limitado de usuarios en Estados Unidos, con el objetivo de mejorar la experiencia de búsqueda.
🤖 Esta función utiliza las publicaciones y comentarios de la plataforma Reddit para ofrecer un servicio de preguntas y respuestas impulsado por IA.
😟 La respuesta de los usuarios ha sido tibia, y muchos se muestran insatisfechos con la prioridad dada a la mejora de la función de búsqueda.

11. Tesla Tao Lin: se mantendrá la ruta de conducción autónoma puramente visual

La vicepresidenta de Tesla, Tao Lin, reiteró la determinación de la empresa de mantener la ruta puramente visual en la tecnología de conducción autónoma. Destacó que solo la combinación de cámaras y redes neuronales visuales permite simular mejor los hábitos de conducción humana, logrando así una conducción autónoma completamente segura e inteligente. El chip AI4 de Tesla ya está equipado en todos los modelos a la venta, con una notable mejora en la potencia de cálculo, lo que indica que la empresa ya está preparada en términos de hardware para la conducción autónoma completa.

【Resumen de AiBase:】
🔍 Tesla insiste en lograr la conducción autónoma completa mediante tecnología puramente visual, considerándola la opción más segura e inteligente.
💡 La tecnología de conducción autónoma utiliza un modelo grande de extremo a extremo, logrando todo el proceso desde la entrada de fotones hasta la salida de la decisión.
📈 Todos los modelos a la venta están equipados con el último chip AI4, con una potencia de cálculo 5 veces mayor, sentando las bases para lograr la conducción autónoma completa.

12. ¡Sorprendente recuperación! La nueva dirección de Stability AI logra en seis meses eliminar deudas y un crecimiento de negocio de tres cifras

Bajo el liderazgo del nuevo CEO, Prem Akkaraju, Stability AI ha logrado en seis meses un crecimiento de negocio de tres cifras y ha eliminado todas sus deudas. Akkaraju destacó la salud del balance de la empresa y se centró en el rápido desarrollo de los servicios de API y licencias. La formación del nuevo equipo directivo atrajo el regreso de inversores que se habían marchado, lo que indica una mejora en las perspectivas de la empresa.

【Resumen de AiBase:】
💼 El nuevo CEO de Stability AI, Prem Akkaraju, afirma que la empresa ha logrado un crecimiento de tres cifras y no tiene deudas.
📈 El nuevo equipo directivo ha completado la recuperación en seis meses, atrayendo el regreso de inversores que se habían marchado.
🎥 El reconocido director James Cameron se ha unido a la junta directiva de Stability AI, lo que muestra una recuperación de la confianza en el sector.

13.智源 publica el código abierto del modelo de generación 3D See3D para aprendizaje de vídeo sin etiquetas

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Boletín diario de IA: OpenAI lanza Sora; el modelo multimodal gratuito GLM-4V-Flash de Zhishu AI; Tencent Cloud crea un asistente de código de IA

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

招商证券：El modelo DeepSeek ya está implementado en el software de comunicación de la oficina

La IA obtiene reconocimiento en psicoterapia, ChatGPT muestra una empatía excepcional

Doubao: el modelo de generación de video "VideoWorld" se ha abierto a código abierto, logrando el aprendizaje puramente visual

Se celebra el primer juicio asesorado por o1 pro; el demandante perdió el 90% de sus activos y utiliza la IA para contraatacar

Perplexity AI: Su valoración se triplica a 9.000 millones de dólares en seis meses, impulsando la fiebre inversora en IA

Polémica racial en NeurIPS: Discurso de profesora del MIT genera controversia y disculpa pública

La influencer de 22 años lanza la aplicación de consejos de citas con IA, Pookie Tools

¡El aroma llega a distancia! Osmo, una empresa de olfato digital, utiliza la IA para «transportar» olores

La emisora polaca OFF Radio Krakow adopta completamente presentadores de IA, causando conmoción en la industria

¡Prepárate! Las impresoras HP integrarán funciones de IA para optimizar automáticamente la impresión