DiffPortrait3D

DiffPortrait3D sintetiza perspectivas 3D realistas e consistentes a partir de uma única foto de retrato em ambiente externo.

Produto ComumImagemSíntese de retratosNova perspectiva

Abrir Site

DiffPortrait3D é um modelo de difusão condicional que sintetiza perspectivas 3D realistas e consistentes, mesmo com apenas uma única foto de retrato em ambiente externo. Especificamente, dada uma única imagem RGB de entrada, nosso objetivo é sintetizar detalhes faciais realistas renderizados a partir de uma nova perspectiva da câmera, mantendo a identidade e a expressão facial. Nosso método sem treinamento prévio generaliza bem para retratos faciais arbitrários, com perspectivas de câmera não posadas, expressões faciais extremas e diversas representações artísticas. Em seu núcleo, utilizamos o conhecimento gerador pré-treinado de um modelo de difusão 2D em um grande conjunto de dados de imagens como nossa espinha dorsal de renderização, guiando o processo de remoção de ruído através do controle de atenção direcionado, desacoplando a aparência e a pose da câmera. Para isso, primeiro injetamos o contexto de aparência da imagem de referência nas camadas de autoatenção de uma UNet congelada. Em seguida, manipulamos a perspectiva renderizada por meio de um novo módulo de controle condicional que interpreta a pose da câmera observando imagens condicionais de sujeitos transversais da mesma perspectiva. Além disso, inserimos um módulo de atenção entre vistas treinável para aprimorar a consistência entre as vistas, que é ainda mais reforçada por meio de um novo processo de geração de ruído com percepção 3D durante a inferência. Demonstramos resultados de ponta qualitativa e quantitativamente em benchmarks desafiadores de ambientes externos e multivisões.

Sintetiza novas perspectivas a partir de uma única imagem
Preserva informações de identidade e expressão facial
Adequado para retratos únicos em ambientes externos
Suporta expressões faciais extremas e diversos estilos de pintura
Utiliza um modelo de difusão 2D pré-treinado como base
Injeta contexto de aparência para guiar a remoção de ruído
Utiliza um módulo de controle condicional para manipular a perspectiva renderizada
Adiciona um módulo de atenção entre vistas treinável
Geração de ruído com percepção 3D aprimora a consistência

Restauração e edição de retratos
Síntese de novas perspectivas de retratos
Criação de animações de retratos

Sintetizar uma perspectiva lateral a partir de um retrato frontal
Sintetizar uma perspectiva lateral com um sorriso amplo a partir de um retrato frontal com sorriso leve
Sintetizar uma nova perspectiva 3D realista a partir de um esboço

Abrir Site

DiffPortrait3D Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

DiffPortrait3D Tendência de Visitas

DiffPortrait3D Distribuição Geográfica das Visitas

Best AI Websites & Tools

DiffPortrait3D

DiffPortrait3D Situação do Tráfego Mais Recente

DiffPortrait3D Tendência de Visitas

DiffPortrait3D Distribuição Geográfica das Visitas

DiffPortrait3D Fontes de Tráfego

DiffPortrait3D Alternativas

DiffPortrait3D — DiffPortrait3D sintetiza perspectivas 3D realistas e consistentes a partir de uma única foto de retrato em ambiente externo.

UNIMO-G — Geração Unificada de Imagens

ART — Uma técnica de transformador de região anônima para geração de imagens transparentes multicamadas variáveis.

Microsoft Copilot para Mac — O Microsoft Copilot é seu assistente de IA, oferecendo suporte para bate-papo, geração de imagens, edição de texto e muito mais, para auxiliar no trabalho e na vida cotidiana.

神采AI — Ferramenta poderosa de geração e edição de imagens com IA, ajudando designers e profissionais criativos a transformar a imaginação em realidade.

WHAM — WHAM é um modelo de jogo generativo desenvolvido pela Microsoft, usado para gerar visuais e ações de controle de jogos.

Amo Desenhar Patos — Amo Desenhar Patos é uma plataforma online que oferece ferramentas criativas para pintura e compartilhamento de trabalhos.

Pippo — Pippo é um modelo generativo que cria vídeos em alta resolução com múltiplas perspectivas a partir de apenas uma foto.

Krea Chat — Krea Chat é uma ferramenta de bate-papo com IA, alimentada pela DeepSeek, que integra todas as funcionalidades do Krea em uma interface de bate-papo.

Janus Pro — Janus Pro é uma plataforma avançada de geração e compreensão de imagens com IA, oferecendo serviços de inteligência visual de alta qualidade.

Chatbot de Criação de Histórias — Um chatbot de criação de histórias baseado em interação por voz, oferecendo uma experiência imersiva de 'escolha sua própria aventura'.

SliderSpace — SliderSpace é uma técnica para decompor a capacidade visual de modelos de difusão, permitindo controlabilidade e interpretabilidade do modelo através de controles deslizantes intuitivos.

API do Google Imagen 3 — O Google Imagen 3 está disponível por meio da API Gemini, com custo de US$ 0,03 por imagem e capacidade de gerar imagens em diversos estilos.

Animagine XL 4.0 — Animagine XL 4.0 é um modelo Stable Diffusion XL focado em estilo anime, projetado para gerar imagens anime de alta qualidade.

Janus-Pro-7B — Janus-Pro-7B é uma nova estrutura autoregressiva que unifica a compreensão e a geração multimodais.

Janus-Pro-1B — Janus-Pro-1B é uma estrutura auto-regressiva unificada de compreensão e geração multimodal.

Fashion-Hut-Modeling-LoRA — Modelo de geração de imagem a partir de texto baseado em Difusão, focado em imagens no estilo de fotografia de modelos de moda.

TokenVerse — TokenVerse é um método de personalização multiconceitual baseado em modelos de difusão pré-treinados de texto para imagem.

Gerador Brat.design — Uma ferramenta online que ajuda os usuários a criar imagens no estilo da capa do álbum da Charli XCX.

AI ContentCraft — O AI ContentCraft é uma ferramenta multifuncional de criação de conteúdo que integra a geração de texto, a síntese de voz e a geração de imagens.

Flex.1-alpha — Modelo pré-treinado de geração de imagem a partir de texto, com 8 bilhões de parâmetros e licença de código aberto Apache 2.0.

API de Fine-Tuning FLUX Pro — A API de Fine-Tuning FLUX Pro é uma ferramenta avançada para personalizar modelos generativos de imagens.

Mundos de Frames — Frames é um modelo base de geração de imagens avançado da Runway, oferecendo um controle de estilo e fidelidade visual sem precedentes.

Procyon AI Image Generation Benchmark — Ferramenta de benchmark para medir o desempenho de inferência de aceleradores de IA de dispositivos.

Grok para iOS — Assistente de IA desenvolvido pela xAI, capaz de gerar imagens de alta qualidade, fornecer informações em tempo real e manter conversas divertidas.

CreatiLayout — Tecnologia de geração de imagem a partir de layout criativo baseada em transformador de difusão multimodal siamês.

Dreamina — Gerador de imagens com IA, transformando texto em arte e imagens.

ogImage.click — Gere imagens de visualização incríveis para mídias sociais gratuitamente

TryOffAnyone — Modelo de aprendizado profundo para gerar imagens de tecido plano a partir de imagens de pessoas vestidas.

VMix — Ferramenta para aprimorar a qualidade estética de modelos de difusão de texto para imagem