Google lança Whisk, ferramenta inovadora de IA para imagens: permite upload de múltiplas imagens e combinação de assunto, cenário e estilo

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Dec 17, 2024

353

O Google Labs lançou recentemente nos EUA sua mais nova ferramenta experimental de IA generativa, o Whisk. Diferentemente das ferramentas tradicionais de geração de imagens, que dependem principalmente de prompts de texto, o Whisk utiliza imagens como método de entrada principal, permitindo que os usuários criem obras de arte de forma mais intuitiva.

Os usuários podem carregar imagens diretamente para o Whisk ou gerar imagens dentro da ferramenta, especificando elementos como tema, cenário e estilo. O sistema Whisk permite que os usuários misturem e combinem esses componentes e podem usar prompts de texto adicionais para ajustes finos, conforme necessário.

Vale ressaltar que, nos bastidores, o modelo de linguagem do Google (provavelmente o Gemini 2.0 Flash, lançado recentemente) gera automaticamente uma descrição detalhada da imagem de entrada. Essas descrições são inseridas no modelo de geração de imagens mais recente do Google, o Imagen 3, para capturar as características essenciais do assunto, em vez de criar uma cópia idêntica.

O AIbase realizou vários testes. Ao carregar as três imagens da esquerda, foi possível gerar a imagem combinada à direita. O resultado foi bastante satisfatório e a ferramenta se mostrou muito divertida. Veja abaixo:

No entanto, como o Whisk extrai apenas alguns elementos-chave de cada imagem de origem, o Google alerta que o resultado da imagem gerada pode diferir do esperado. Por exemplo, a imagem gerada pode apresentar diferenças em altura, peso, penteado ou tom de pele em comparação com as imagens originais.

Para isso, o Google afirma que esses detalhes são muitas vezes cruciais para o sucesso do projeto, permitindo que os usuários vejam e editem os prompts de texto que impulsionam o processo de geração de imagens.

Testadores iniciais, incluindo alguns artistas e profissionais criativos, disseram que o Whisk se assemelha mais a uma nova ferramenta criativa do que a um editor de imagens tradicional. O Google espera que a ferramenta ajude os usuários a fazerem brainstorming visual rapidamente, em vez de edições precisas, permitindo que eles gerem e filtrem várias opções rapidamente antes de salvarem seus trabalhos favoritos.

Em testes iniciais, embora o Whisk seja muito agradável de usar, a geração de cada nova imagem leva alguns segundos. Esses atrasos podem ser devidos ao alto tráfego, com muitos usuários acessando a nova ferramenta.

Atualmente, o Whisk está disponível apenas para usuários nos EUA, que podem experimentá-lo gratuitamente e compartilhar feedback em labs.google/whisk. Usuários de outros países ainda não têm acesso à ferramenta.

O Whisk faz parte do Google Labs, um ambiente de testes do Google para seus projetos de IA, incluindo Gemini, Imagen e o mais recente modelo de vídeo Veo2. Embora a maioria dos projetos ainda esteja em fase experimental, alguns projetos bem-sucedidos, como o assistente de IA NotebookLM, recentemente lançado oficialmente, são transformados em produtos completos.

Endereço para experimentar o produto: https://top.aibase.com/tool/whisk

Destaques:
🌟 O Google lança o Whisk, a primeira ferramenta de IA generativa baseada em imagens.
🎨 Os usuários podem carregar ou gerar imagens para design visual rápido, em vez de edição precisa.
🚫 Atualmente, apenas para usuários nos EUA, outros países ainda não têm acesso.

Amazon se junta ao C2PA para combater a disseminação de conteúdo gerado por IA!

Deepfakes e mídias sintéticas estão se tornando cada vez mais comuns devido ao avanço da inteligência artificial generativa (IA generativa). Para enfrentar esse desafio, muitas organizações estão trabalhando em tecnologias de marca d'água digital para rastrear a origem do conteúdo. Embora ainda não haja uma solução perfeita, a Coalizão para a Proveniência e Autenticidade de Conteúdo (C2PA) está crescendo. A C2PA anunciou que a Amazon se juntou ao seu conselho diretor. A C2PA é um padrão técnico aberto hospedado pela Fundação Linux.

Singapura planeja legislar contra o uso de deepfakes durante eleições

Singapura propôs recentemente um novo projeto de lei que visa proibir o uso de deepfakes durante as eleições, a fim de garantir a autenticidade das informações e a justiça eleitoral. Com o desenvolvimento da inteligência artificial generativa, o risco de conteúdo deepfake aumentou, e o projeto de lei visa regular o conteúdo falso criado usando IA e outras tecnologias não relacionadas à IA, incluindo vídeos, áudios e imagens. A proibição central se concentra em anúncios online falsos que retratam falsamente as palavras ou ações de candidatos durante as eleições, com penalidades que incluem multas ou prisão para infratores. O projeto de lei também permite a emissão de ordens de correção para indivíduos e plataformas de mídia social que publicam conteúdo falso.

Google combate deepfakes não consensuais, elevando a segurança cibernética

O Google tomou medidas recentemente para combater o conteúdo de deepfakes não consensuais, respondendo às preocupações do público e à pressão legislativa. Após o incidente com Taylor Swift, há oito meses, empresas de tecnologia e legisladores começaram a levar o assunto a sério. O Google anunciou medidas para evitar que deepfakes de natureza sexual apareçam nos resultados de pesquisa, incluindo simplificar o processo de remoção de imagens de exploração sexual não consensuais para vítimas, filtrar resultados de pesquisa de natureza sexual, remover imagens duplicadas e otimizar os resultados de pesquisa para reduzir a exposição a deepfakes. Henry Ajder aprova as medidas do Google, acreditando que elas reduzirão significativamente a exposição de conteúdo não consensual.

32% das organizações já implantaram inteligência artificial generativa

32% das organizações já utilizam inteligência artificial generativa em aplicações empresariais. 60% das organizações estão mais preocupadas com a segurança da inteligência artificial generativa. 58% das organizações adotam principalmente o modelo de linguagem de grande porte GPT-4 da OpenAI. Dados da pesquisa mostram que 75% das organizações atualmente usam modelos de linguagem de grande porte.