De acordo com a reportagem do The Information, fontes disseram que a OpenAI planeja lançar um sistema de IA multimodal chamado GPT-Vision, para competir com o Gemini, o modelo multimodal de grande escala recentemente lançado pelo Google para testes empresariais. A OpenAI exibiu recursos multimodais quando lançou o GPT-4 em março, mas até agora só disponibilizou para algumas empresas. Seis meses depois, a OpenAI está pronta para lançar o GPT-Vision em larga escala. O atraso se deve principalmente à preocupação da OpenAI com o potencial de uso indevido do novo recurso. Além disso, a OpenAI está preparando um modelo multimodal ainda mais poderoso, com o nome de código Gobi. A OpenAI está impulsionando ativamente a comercialização de IA multimodal, marcando o início da aplicação prática da IA multimodal. Especialistas do setor acreditam que capacidades visuais, como a geração de imagens, aumentarão o valor comercial dos sistemas de IA, e o GPT-Vision da OpenAI tem potencial para rivalizar com o Google. A competição entre os dois gigantes da IA é benéfica para o progresso tecnológico.
Sistema de IA multimodal GPT-Vision da OpenAI prestes a ser lançado, competindo com o Gemini do Google
