26 de abril de 2025, AIbase relatou: A OpenAI anunciou recentemente que o recurso de geração de imagens de seu modelo multimodal principal, GPT-4o, agora está oficialmente integrado ao recurso de GPTs personalizados do ChatGPT. Essa atualização significa que assistentes de IA personalizados criados pelo usuário podem gerar e editar imagens diretamente, abrindo mais possibilidades para criação de conteúdo, design e educação.

QQ_1745714143685.png

Experiência de geração de imagens integrada

O recurso de geração de imagens do GPT-4o foi lançado gradualmente para usuários gratuitos, Plus, Pro e Team no ChatGPT e na plataforma Sora a partir de 25 de março de 2025. Diferentemente do passado, onde se dependia de modelos externos como o DALL-E3, a capacidade de geração de imagens do GPT-4o está integrada ao próprio modelo, permitindo a geração direta de imagens de alta qualidade com base em prompts de texto. Agora, esse recurso foi expandido para GPTs personalizados, permitindo que os usuários habilitem a opção “Geração de Imagens GPT-4o” no editor de GPTs personalizados do ChatGPT para criar assistentes de IA exclusivos com capacidade de geração de imagens. Essa atualização substitui o back-end DALL-E3 anterior, melhorando significativamente a velocidade de geração e a qualidade da imagem.

Destaques e cenários de aplicação

A geração de imagens GPT-4o em GPTs personalizados demonstra flexibilidade e utilidade excepcionais. Os usuários podem gerar imagens com realismo fotográfico, ilustrações estilizadas ou ativos de design complexos por meio de prompts de linguagem natural. Aqui estão suas principais vantagens:

Renderização precisa de texto: O GPT-4o consegue incorporar texto claro e legível em imagens, ideal para gerar gráficos, menus, convites ou infográficos.

Otimização de interação em várias rodadas: Os usuários podem ajustar gradualmente os detalhes da imagem por meio de um diálogo, e o modelo mantém a coerência do contexto, adequado para design de personagens, desenvolvimento de ativos de marca ou criação de storyboards que exigem várias iterações.

Cumprimento de instruções complexas: O modelo consegue processar prompts detalhados com 10 a 20 objetos, garantindo a representação precisa das relações e características dos objetos.

Adaptação a diversos estilos: Do realismo ao desenho animado, do desenho à mão livre à alta resolução, o GPT-4o pode gerar imagens em vários estilos artísticos para atender às diferentes necessidades criativas.

Por exemplo, um GPT personalizado para moda pode gerar esboços de design de roupas, um GPT para educação pode criar gráficos didáticos intuitivos, e um GPT para marketing pode gerar rapidamente materiais publicitários para mídia social. Esses recursos oferecem aos usuários uma maneira de criar conteúdo visual de alta qualidade sem precisar de habilidades de design profissional.

Como usar e limitações

Para usar o recurso de geração de imagens do GPT-4o, os usuários precisam habilitar a opção correspondente no editor de GPTs personalizados do ChatGPT e descrever a imagem desejada por meio de um prompt de texto, especificando detalhes como código de cores, proporção ou fundo transparente. O processo de geração pode levar de alguns segundos a um minuto, dependendo da complexidade do prompt. Apesar de poderoso, a implementação atual apresenta algumas limitações. Por exemplo, alguns usuários relataram que a estabilidade da geração de imagens no cumprimento de instruções de GPT personalizadas é de cerca de 50%, indicando que o recurso ainda está em fase experimental. Além disso, imagens grandes, como pôsteres, podem apresentar problemas de recorte que precisam de otimização. A OpenAI afirma que melhorará a estabilidade e o desempenho do recurso por meio de atualizações contínuas.

Amplo acesso e segurança

Atualmente, o recurso de geração de imagens GPT-4o está disponível para todos os níveis de assinatura do ChatGPT, incluindo usuários gratuitos (limitados a 3 usos por dia). Usuários corporativos, educacionais e desenvolvedores de API devem receber acesso nas próximas semanas. Para garantir a segurança do conteúdo, todas as imagens geradas têm metadados C2PA incorporados para indicar a origem, e a OpenAI também implantou ferramentas de busca interna e um sistema de revisão para restringir estritamente a geração de conteúdo envolvendo pessoas reais, nudez ou violência.

Impacto profundo nos desenvolvedores

Para os desenvolvedores, o lançamento iminente da API de geração de imagens GPT-4o impulsionará ainda mais sua integração em aplicativos. Em comparação com os modelos tradicionais de geração de imagens, a arquitetura multimodal do GPT-4o reduz o custo de comutação entre modelos, proporcionando uma experiência de desenvolvimento mais fluida. Essa atualização também sugere que a OpenAI está trabalhando para construir uma pilha de tecnologia multimodal unificada entre ChatGPT, Sora e API, com a expectativa de expansão de funcionalidades mais amplas no futuro.

Perspectivas futuras

O uso do recurso de geração de imagens GPT-4o em GPTs personalizados não apenas melhora a utilidade dos assistentes de IA, mas também fornece aos usuários uma ferramenta de criação mais intuitiva e eficiente. Embora ainda haja desafios tecnológicos a serem resolvidos, como a estabilidade do cumprimento de instruções e problemas de recorte de imagens, seu potencial já é evidente. A AIbase prevê que, à medida que a OpenAI continuar otimizando o modelo e expandindo o acesso à API, o GPT-4o provocará mudanças ainda maiores na criação de conteúdo, design comercial e educação. A AIbase continuará acompanhando os avanços mais recentes do GPT-4o para fornecer insights aprofundados sobre tecnologias de IA de ponta.