Nas últimas notícias do mundo da tecnologia, a OpenAI anunciou que integrou o gerador de imagens mais avançado até hoje em seu mais recente modelo, o GPT-4o. Sam Altman, CEO da OpenAI, compartilhou sua surpresa ao ver as imagens geradas pela primeira vez na plataforma de mídia social X, descrevendo-as como inacreditáveis e incentivando os usuários a explorarem sua criatividade.

image.png

Os destaques do novo recurso incluem:

- Capacidade de renderizar com precisão o conteúdo de texto, fornecendo imagens de alta qualidade.

- Suporte para várias formas de entrada e saída, incluindo texto, imagens e áudio.

- Compreensão de instruções complexas e contexto para criar imagens em primeira pessoa realistas.

Diferentemente do modelo de geração de imagens anterior, DALL・E, o GPT-4o utiliza um modelo autorregressivo, integrado nativamente ao ChatGPT. Isso significa que ele pode lidar com instruções complexas com até 10 a 20 objetos diferentes, enquanto os concorrentes geralmente lidam com apenas 5 a 8, demonstrando uma capacidade superior.

image.png

Os usuários precisam apenas descrever suas necessidades de forma concisa, especificando a proporção, as cores ou um fundo transparente, por exemplo, e o modelo gerará a imagem rapidamente. Embora a renderização de detalhes mais complexos possa levar um pouco mais de tempo, o resultado final vale a pena.

Em uma apresentação, o demonstrador mostrou vários casos de uso. Por exemplo, ele transformou uma foto em uma imagem de estilo anime, e o modelo não apenas preservou as características das pessoas, mas também combinou perfeitamente o efeito visual do anime. Além disso, o demonstrador solicitou a geração de uma página de quadrinhos humorísticos sobre a teoria da relatividade, e o resultado foi uma história em quadrinhos completa e divertida.

A OpenAI também leva muito a sério a segurança deste recurso. Todas as imagens geradas contêm metadados C2PA para garantir a rastreabilidade do conteúdo e impedir a geração de solicitações impróprias.

Claro, a ferramenta de geração de imagens da OpenAI não está isenta de desvantagens. Existem ainda algumas deficiências em áreas como recorte, compreensão de contexto e renderização de texto não latino. No entanto, a OpenAI afirma que continuará a melhorar esses aspectos no futuro.

Simultaneamente, o Google lançou seu poderoso modelo de IA, o Gemini 2.5 Pro Experimental, demonstrando melhorias significativas em raciocínio e capacidade de programação. Essa série de eventos mostra que a competição no campo da IA está se tornando cada vez mais acirrada, com grandes empresas de tecnologia lançando continuamente tecnologias mais avançadas na luta por uma posição de liderança nessa "batalha da IA".