Organização de pesquisa de IA publica ranking de modelos de geração de imagens a partir de texto: Midjourney continua sendo o melhor

AIbase

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Jun 26, 2024

370

Recentemente, a organização de pesquisa em inteligência artificial Artificial Analysis lançou uma nova iniciativa chamada "Artificial Analysis Text to Image Leaderboard & Arena" (Classificação e Arena de Texto para Imagem), com o objetivo de avaliar completamente o desempenho desses modelos.

Visão geral da plataforma de avaliação

Desde a introdução de geradores de imagens baseados em difusão há dois anos, os modelos de imagens de IA atingiram uma qualidade quase fotográfica. O Artificial Analysis Text to Image Leaderboard & Arena se dedica a comparar modelos de geração de imagens de código aberto e proprietários, determinando sua eficácia e precisão com base nas preferências humanas.

A classificação da plataforma é baseada em mais de 45.000 preferências de imagens humanas coletadas através do Artificial Analysis Image Arena, atualizada usando o sistema de classificação ELO. A avaliação abrange vários modelos de imagens líderes, incluindo Midjourney, DALL·E da OpenAI, Stable Diffusion e Playground AI.

Método de avaliação

A plataforma utiliza uma abordagem de crowdsourcing para coletar dados em larga escala de preferências humanas. Os participantes veem um prompt e duas imagens geradas, e escolhem a imagem que melhor corresponde ao prompt. Cada modelo gera mais de 700 imagens abrangendo diferentes estilos e categorias, como retratos, grupos, animais, natureza e arte. Os dados de preferências coletados são usados para calcular a pontuação ELO de cada modelo, criando assim uma classificação comparativa.

Insights iniciais

A classificação mostra que, embora os modelos proprietários estejam à frente em termos de desempenho, as alternativas de código aberto estão se tornando cada vez mais competitivas. Modelos como Midjourney, Stable Diffusion 3 e DALL·E 3HD estão no topo da lista, enquanto o modelo de código aberto Playground AI v2.5 também fez progressos significativos, superando o DALL·E 3 da OpenAI.

É importante notar que o cenário dos modelos de geração de imagens está mudando rapidamente. Por exemplo, o DALL·E 2, que liderou no ano passado, agora tem uma taxa de seleção inferior a 25% na arena, caindo para um dos modelos com menor classificação.

Participação do público

A Artificial Analysis incentiva a participação do público nesta avaliação. Os usuários podem acessar a classificação no Hugging Face e participar do processo de classificação através do Image Arena. Após concluir 30 seleções de imagens, os participantes podem visualizar sua classificação de modelos personalizada, obtendo insights sobre suas preferências.

Esta iniciativa representa um passo importante para a compreensão e melhoria dos modelos de geração de imagens de IA. Ao utilizar preferências humanas e um método rigoroso de crowdsourcing, a plataforma fornece insights valiosos sobre o desempenho comparativo dos principais modelos de imagens. À medida que o campo continua a evoluir, plataformas como esta desempenharão um papel fundamental na orientação do futuro desenvolvimento e inovação da geração de imagens impulsionada por IA.

Link para a classificação: https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

Texto para imagem Análise Artificial Midjourney Stable Diffusion

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Runway arrecada US$ 308 milhões em financiamento, avaliada em mais de US$ 3 bilhões

A Runway, startup de vídeo com inteligência artificial, arrecadou US$ 308 milhões em uma nova rodada de financiamento. A rodada foi liderada pela empresa de private equity General Atlantic e visa ajudar a Runway a expandir ainda mais seu ecossistema de novas mídias. Fontes dizem que a Runway, com sede em Nova York, agora está avaliada em mais de US$ 3 bilhões após a última rodada de financiamento. Além da General Atlantic, vários outros investidores de renome participaram da rodada, incluindo a SoftBank.

Apr 6, 2025

CogView4: Modelo de texto para imagem de código aberto da Zhipu AI, com suporte para prompts em chinês e inglês

O mais recente modelo de texto para imagem de código aberto da Zhipu AI, o CogView4, foi lançado oficialmente. Com 600 milhões de parâmetros, o CogView4 oferece suporte total à entrada em chinês e à geração de imagens a partir de texto em chinês, sendo considerado o primeiro modelo de código aberto capaz de gerar caracteres chineses em imagens. O principal destaque do CogView4 é o suporte a prompts bilíngues (chinês e inglês), sendo especialmente eficiente na compreensão e no seguimento de instruções complexas em chinês, tornando-se uma ferramenta valiosa para criadores de conteúdo em chinês. Como o primeiro modelo de texto para imagem de código aberto capaz de gerar caracteres chineses em imagens, ele preenche uma lacuna significativa no ecossistema de código aberto.

Mar 4, 2025

CogView4: Primeiro modelo de texto para imagem de código aberto a gerar caracteres chineses lançado pela ZhiPu

A Beijing ZhiPu HuaZhang Technology Co., Ltd. anunciou o lançamento do CogView4, o primeiro modelo de texto para imagem de código aberto a suportar a geração de caracteres chineses. Este modelo alcançou a pontuação mais alta no teste de referência DPG-Bench, tornando-se o melhor modelo de texto para imagem de código aberto (SOTA - State of the Art). Ele também é o primeiro modelo de geração de imagens a seguir a licença Apache2.0.

Mar 4, 2025

Alibaba Cloud Tongyi Wanxiang lança novo modelo de edição de imagem ACE para edição de imagens com um clique

Nesta semana, a equipe Alibaba Cloud Tongyi Wanxiang lançou o novo modelo de edição de imagem ACE, projetado para fornecer aos usuários um serviço de geração e edição de imagens mais conveniente e inteligente. Os usuários podem gerar ou modificar imagens simplesmente usando comandos coloquiais, simplificando enormemente a complexidade da edição de imagens. Essa ferramenta suporta uma ampla gama de cenários de aplicação, incluindo retratos estilizados, criação de storyboards e design de interiores. O modelo ACE não apenas suporta a geração de imagens a partir de texto (texto para imagem), mas também possui poderosas funções de edição de imagem. Os usuários podem realizar edições visuais controláveis e modificação de elementos por meio de diálogo.

Dec 2, 2024

3.1k

IA revoluciona a criação! Três novos modelos de texto para imagem da Stability AI chegam ao Amazon Bedrock!

A Stability AI, em parceria com a Amazon Web Services (AWS), introduziu três novos modelos de geração de imagem a partir de texto ao serviço Amazon Bedrock, para melhorar o posicionamento comercial e a competitividade no mercado. Esses três modelos — Stable Image Ultra, Stable Diffusion 3 Large e Stable Image Core — atendem a diferentes necessidades, oferecendo desde a geração de imagens de alta qualidade até a produção rápida de imagens em larga escala.

Sep 5, 2024

2.5k

ImageFX: O Google Imagen3 agora está disponível para todos! A otimização de prompts é excelente

O recurso "ImageFX" do modelo de texto para imagem Imagen3 do Google está oficialmente aberto a todos, oferecendo uma experiência de interação com prompts ainda melhor. Os usuários precisam apenas inserir um texto descritivo, e o sistema gerará a imagem correspondente, além de otimizar o prompt, oferecendo várias opções para melhorar o resultado da geração. Além disso, o Imagen3 possui um recurso de edição local, permitindo que os usuários usem uma ferramenta de pincel para modificar partes da imagem e preencher as descrições correspondentes. O sistema gerará automaticamente a imagem modificada, aumentando significativamente a flexibilidade e a conveniência da geração de imagens.

Aug 12, 2024

6.0k

Tutorial de Prompts: Como Criar Fotos Realistas de iPhone com o Midjourney

A capacidade de geração de imagens do Midjourney impressiona a todos. Como líder na área de arte com IA, o Midjourney às vezes gera imagens que não são realistas o suficiente. Mesmo que a imagem gerada seja bonita, ainda pode ter um ar de 'falso'. Exemplo de teste do AIBase: iPhonephotoofwithmanyraisinsontop.Ataafancyrestaurantinnyc.--ar3:4--stylera

Jul 18, 2024

1.3k

Hugging Face e Intel lançam solução de consistência de imagem gerada por texto – SPRIGHT

Solução para melhorar a consistência espacial de modelos de geração de imagens a partir de texto. Aumento significativo na capacidade do modelo de entender as relações espaciais em prompts de texto. Desenvolvimento de um conjunto de dados e métodos que alcançam níveis líderes do setor. Criação do SPRIGHT, um conjunto de dados em larga escala focado em relações espaciais. Melhoria do desempenho de modelos de geração de imagens a partir de texto por meio de experimentos e testes.

Apr 2, 2024

600

Microsoft de código aberto inova com método de combinação LoRA para aprimorar o controle de detalhes complexos em imagens geradas por texto

O LoRA é amplamente utilizado na geração de imagens a partir de texto, permitindo renderizar e mesclar elementos específicos em imagens, como caracteres e roupas, e realizar operações de otimização. Os pesquisadores desenvolveram um método de combinação Multi-LoRA que permite integrar vários LoRAs sem ajuste fino, mantendo a integridade dos pesos. O LoRA Switch apresenta desempenho superior na qualidade de síntese de imagens, enquanto o LoRA Composite se destaca na geração da qualidade da imagem. O LoRA Switch garante a renderização de cada elemento alternando entre diferentes modelos LoRA.

Mar 25, 2024

700

Projeto LaVi-Bridge: Framework de texto para imagem sem treinamento

O projeto LaVi-Bridge é um framework que combina diferentes modelos de linguagem e modelos de geração de imagens sem necessidade de treinamento, permitindo a geração de imagens a partir de texto. LaVi-Bridge utiliza LoRA e adaptadores, oferecendo um método flexível e plug-and-play, compatível com diversos modelos de linguagem e visuais. ConsiStory é um novo modelo de texto para imagem que resolve o desafio da consistência de imagens, gerando imagens coerentes sem treinamento. O Playground lançou sua versão v2.5, melhorando a qualidade estética e os detalhes de retratos, superando outros modelos.

Mar 15, 2024

600

Notícias de IA

IA Diário

Linha do Tempo da IA

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral