Según un informe de The Information, fuentes familiarizadas con el asunto revelaron que OpenAI planea lanzar GPT-Vision, un sistema de IA multimodal, para competir con Gemini, el modelo multimodal de Google recientemente lanzado para pruebas empresariales. OpenAI ofreció un adelanto de las funciones multimodales cuando lanzó GPT-4 en marzo, pero hasta ahora solo se ha puesto a disposición de algunas empresas. Seis meses después, OpenAI se prepara para lanzar GPT-Vision a gran escala. El retraso se debe principalmente a la preocupación de OpenAI por el posible mal uso de la nueva función. Además, OpenAI está preparando un modelo multimodal aún más potente con el nombre en clave "Gobi". El impulso de OpenAI hacia la comercialización de la IA multimodal marca el comienzo de la aplicación práctica de esta tecnología. Expertos de la industria creen que las capacidades visuales, como la generación de imágenes, mejorarán el valor comercial de los sistemas de IA, y que GPT-Vision de OpenAI tiene el potencial de rivalizar con Google. La competencia entre estos dos gigantes de la IA beneficiará el progreso tecnológico.