El sistema de IA multimodal GPT-Vision de OpenAI está a punto de lanzarse y competirá con Gemini de Google

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Sep 19, 2023

263

Según un informe de The Information, fuentes familiarizadas con el asunto revelaron que OpenAI planea lanzar GPT-Vision, un sistema de IA multimodal, para competir con Gemini, el modelo multimodal de Google recientemente lanzado para pruebas empresariales. OpenAI ofreció un adelanto de las funciones multimodales cuando lanzó GPT-4 en marzo, pero hasta ahora solo se ha puesto a disposición de algunas empresas. Seis meses después, OpenAI se prepara para lanzar GPT-Vision a gran escala. El retraso se debe principalmente a la preocupación de OpenAI por el posible mal uso de la nueva función. Además, OpenAI está preparando un modelo multimodal aún más potente con el nombre en clave "Gobi". El impulso de OpenAI hacia la comercialización de la IA multimodal marca el comienzo de la aplicación práctica de esta tecnología. Expertos de la industria creen que las capacidades visuales, como la generación de imágenes, mejorarán el valor comercial de los sistemas de IA, y que GPT-Vision de OpenAI tiene el potencial de rivalizar con Google. La competencia entre estos dos gigantes de la IA beneficiará el progreso tecnológico.

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Hedra ha presentado Character-3 y Hedra Studio, dos innovaciones que marcan un hito en la tecnología de avatares digitales. Estos avances permiten la inferencia conjunta de imagen, texto y audio, abriendo nuevas posibilidades para la creación de experiencias inmersivas y realistas en diversas aplicaciones.

¡阿里巴巴 lanza el modelo de inferencia multimodal QVQ-72B! Mejora la capacidad visual y lingüística, resolviendo problemas complejos con facilidad

Alibaba ha lanzado recientemente un nuevo modelo de inferencia multimodal llamado QVQ-72B. Construido sobre Qwen2-VL-72B, este modelo integra potentes capacidades lingüísticas y visuales, lo que le permite manejar tareas de inferencia y análisis más complejas. Esto marca un nuevo avance de Alibaba en el campo de la IA multimodal. QVQ-72B muestra una mejora significativa en el razonamiento visual, problemas matemáticos y científicos, especialmente en tareas de razonamiento de varios pasos. Esto significa que el modelo no solo puede comprender información textual, sino también información de imágenes, y realizar inferencias de varios pasos.

Modelo o1 completo de OpenAI revelado: capacidades superiores, procesamiento de 200.000 tokens

Recientemente, un usuario en la plataforma de redes sociales X reveló que el nuevo modelo o1 de OpenAI proporcionó acceso a algunos usuarios durante un breve período a través de la URL "chatgpt.com/?model=o1", acceso que posteriormente se cerró rápidamente. Según los comentarios de los usuarios, este último modelo puede procesar aproximadamente 200.000 palabras de texto y tiene la capacidad de analizar imágenes. OpenAI califica el modelo o1 como su "modelo más potente", especialmente adecuado para tareas que requieren creatividad y razonamiento de alto nivel.

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

OpenAI lidera una vez más la innovación en inteligencia artificial con el lanzamiento de su nuevo modelo gpt-4o-audio-preview. Este modelo no solo muestra una capacidad asombrosa en la generación y el análisis de voz, sino que también abre nuevas posibilidades para la interacción humano-máquina. Exploremos las características y las aplicaciones potenciales de este innovador modelo. Las funciones principales de gpt-4o-audio-preview se dividen en tres áreas: en primer lugar, su capacidad para generar respuestas de voz naturales y fluidas a partir de texto, proporcionando una solución ideal para asistentes de voz y atención al cliente virtual...