Sistema de IA multimodal GPT-Vision da OpenAI prestes a ser lançado, competindo com o Gemini do Google

站长之家

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Sep 19, 2023

263

De acordo com a reportagem do The Information, fontes disseram que a OpenAI planeja lançar um sistema de IA multimodal chamado GPT-Vision, para competir com o Gemini, o modelo multimodal de grande escala recentemente lançado pelo Google para testes empresariais. A OpenAI exibiu recursos multimodais quando lançou o GPT-4 em março, mas até agora só disponibilizou para algumas empresas. Seis meses depois, a OpenAI está pronta para lançar o GPT-Vision em larga escala. O atraso se deve principalmente à preocupação da OpenAI com o potencial de uso indevido do novo recurso. Além disso, a OpenAI está preparando um modelo multimodal ainda mais poderoso, com o nome de código Gobi. A OpenAI está impulsionando ativamente a comercialização de IA multimodal, marcando o início da aplicação prática da IA multimodal. Especialistas do setor acreditam que capacidades visuais, como a geração de imagens, aumentarão o valor comercial dos sistemas de IA, e o GPT-Vision da OpenAI tem potencial para rivalizar com o Google. A competição entre os dois gigantes da IA é benéfica para o progresso tecnológico.

Modelo o1 completo do OpenAI revelado: capacidades impressionantes, processa 200.000 tokens

Recentemente, um usuário relatou na plataforma de mídia social X que o novo modelo o1 do OpenAI foi brevemente disponibilizado para alguns usuários por meio do URL “chatgpt.com/?model=o1”, sendo posteriormente desativado. De acordo com o feedback do usuário, este modelo mais recente consegue processar aproximadamente 200.000 palavras de texto e possui a capacidade de analisar imagens. O OpenAI se refere ao modelo o1 como seu "modelo mais poderoso", especialmente adequado para tarefas que exigem criatividade e raciocínio avançado.

OpenAI Lança o GPT-4O-Audio-Preview: Áudio que 'Entende' Emoções!

A OpenAI lidera novamente a inovação em inteligência artificial com o lançamento do novo modelo gpt-4o-audio-preview. Este modelo demonstra capacidades surpreendentes na geração e análise de áudio, abrindo novas possibilidades para a interação humano-computador. Vamos explorar os recursos deste modelo inovador e suas potenciais aplicações. As principais funcionalidades do gpt-4o-audio-preview incluem três aspectos: primeiro, ele pode gerar respostas de voz naturais e fluidas com base em texto, fornecendo suporte para aplicativos como assistentes de voz e atendimento virtual.

Novo modelo OpenAI gpt-4o-2024-08-06 e gpt-4o-mini com suporte a saída estruturada

A OpenAI adicionou a funcionalidade de saída estruturada à sua API, garantindo que a saída gerada esteja totalmente em conformidade com o esquema JSON predefinido, melhorando significativamente a confiabilidade da API e a precisão dos aplicativos. Este recurso não apenas define a estrutura do JSON, mas também garante a precisão da saída. Simultaneamente, houve uma redução de preços, com o custo de entrada reduzido pela metade e o custo de saída reduzido em 1/3. A introdução da saída estruturada resolveu as limitações do esquema JSON em garantir que a saída esteja em conformidade com uma estrutura específica, melhorando significativamente o desempenho do modelo em relação à saída estruturada. Através de inovações tecnológicas, como restrições...

OpenAI lança novo modelo gpt-4o-64k-output-alpha: GPT-4o API agora suporta até 64K de saída

O principal destaque do novo modelo gpt-4o-64k-output-alpha da OpenAI é a capacidade de gerar uma saída de até 64K tokens de uma só vez, ideal para produzir conteúdo rico e detalhado, atendendo às necessidades de redação, programação e análise de dados complexos. No entanto, este recurso aumenta o preço da API, custando US$ 18 por milhão de tokens de saída, em comparação com US$ 6 por milhão de tokens de entrada. Essa medida visa equilibrar os altos custos computacionais e incentivar o uso responsável desta poderosa ferramenta. O modelo é uma ferramenta valiosa para os campos da criação e da pesquisa.