Uma equipe de pesquisa apresentou um novo método de treinamento projetado para aprimorar a capacidade de geração de imagens do DALL-E3. Este método combina legendas sintéticas geradas pelo modelo com legendas reais geradas por humanos para abordar problemas como percepção espacial e representação de texto.
Modelos avançados de linguagem, como o GPT-4, desempenham um papel crucial na melhoria da qualidade e profundidade do texto. O estudo mostra que o DALL-E3 obteve melhorias significativas na qualidade e precisão da geração de imagens, estabelecendo uma base para o desenvolvimento futuro de tecnologias de geração de imagem a partir de texto.