Recentemente, a organização de pesquisa em inteligência artificial Artificial Analysis lançou uma nova iniciativa chamada "Artificial Analysis Text to Image Leaderboard & Arena" (Classificação e Arena de Texto para Imagem), com o objetivo de avaliar completamente o desempenho desses modelos.
Visão geral da plataforma de avaliação
Desde a introdução de geradores de imagens baseados em difusão há dois anos, os modelos de imagens de IA atingiram uma qualidade quase fotográfica. O Artificial Analysis Text to Image Leaderboard & Arena se dedica a comparar modelos de geração de imagens de código aberto e proprietários, determinando sua eficácia e precisão com base nas preferências humanas.
A classificação da plataforma é baseada em mais de 45.000 preferências de imagens humanas coletadas através do Artificial Analysis Image Arena, atualizada usando o sistema de classificação ELO. A avaliação abrange vários modelos de imagens líderes, incluindo Midjourney, DALL·E da OpenAI, Stable Diffusion e Playground AI.
Método de avaliação
A plataforma utiliza uma abordagem de crowdsourcing para coletar dados em larga escala de preferências humanas. Os participantes veem um prompt e duas imagens geradas, e escolhem a imagem que melhor corresponde ao prompt. Cada modelo gera mais de 700 imagens abrangendo diferentes estilos e categorias, como retratos, grupos, animais, natureza e arte. Os dados de preferências coletados são usados para calcular a pontuação ELO de cada modelo, criando assim uma classificação comparativa.
Insights iniciais
A classificação mostra que, embora os modelos proprietários estejam à frente em termos de desempenho, as alternativas de código aberto estão se tornando cada vez mais competitivas. Modelos como Midjourney, Stable Diffusion 3 e DALL·E 3HD estão no topo da lista, enquanto o modelo de código aberto Playground AI v2.5 também fez progressos significativos, superando o DALL·E 3 da OpenAI.
É importante notar que o cenário dos modelos de geração de imagens está mudando rapidamente. Por exemplo, o DALL·E 2, que liderou no ano passado, agora tem uma taxa de seleção inferior a 25% na arena, caindo para um dos modelos com menor classificação.
Participação do público
A Artificial Analysis incentiva a participação do público nesta avaliação. Os usuários podem acessar a classificação no Hugging Face e participar do processo de classificação através do Image Arena. Após concluir 30 seleções de imagens, os participantes podem visualizar sua classificação de modelos personalizada, obtendo insights sobre suas preferências.
Esta iniciativa representa um passo importante para a compreensão e melhoria dos modelos de geração de imagens de IA. Ao utilizar preferências humanas e um método rigoroso de crowdsourcing, a plataforma fornece insights valiosos sobre o desempenho comparativo dos principais modelos de imagens. À medida que o campo continua a evoluir, plataformas como esta desempenharão um papel fundamental na orientação do futuro desenvolvimento e inovação da geração de imagens impulsionada por IA.
Link para a classificação: https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard