Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

Chocante! Seu chatbot de IA aprendeu 'leitura de mentes' em segredo! - INFP desbloqueia novas posições para diálogos a dois

AIbase基地

Publicado emNotícias e Informações de IA · 7 minutos de leitura · Dec 23, 2024

204

Recentemente, uma nova tecnologia chamada INFP (Interactive, Natural, Flash and Person-generic) tem chamado a atenção. Seu objetivo é resolver o problema da interação insuficiente em diálogos entre duas pessoas com avatares virtuais de IA, permitindo que personagens virtuais ajustem dinamicamente suas expressões e movimentos de acordo com o conteúdo da conversa, como seres humanos.

Adeus ao "stand-up comedy" solo, olá ao "dueto"!

Avatares de IA anteriores, ou só conseguiam falar sozinhos, como um comediante de "stand-up comedy" solo, ou apenas escutavam passivamente, sem feedback algum, como "bonecos de madeira". Mas as conversas humanas não são assim! Quando falamos, olhamos para o interlocutor, acenamos com a cabeça, franzimos a testa, até fazemos piadas – essa é a verdadeira interação!

A INFP veio para mudar essa situação desconfortável! É como um maestro de "dueto", capaz de ajustar dinamicamente as expressões e movimentos do avatar de IA com base no áudio da conversa entre você e a IA, dando a sensação de estar conversando com uma pessoa real!

Os "segredos" da INFP: dois truques essenciais!

A INFP é tão poderosa graças a seus dois "segredos":

Mestre em Imitação de Movimento (Motion-Based Head Imitation):

Ela aprende expressões e movimentos humanos a partir de uma grande quantidade de vídeos de conversas reais, como um "mestre em imitação de movimento", comprimindo esses comportamentos complexos em "códigos de movimento".

Para tornar os movimentos mais realistas, ela se concentra especialmente nos olhos e na boca, os "responsáveis pelas expressões", como se estivesse usando uma "câmera close-up".

Ela também usa pontos-chave faciais para auxiliar na geração de expressões, garantindo precisão e naturalidade nos movimentos.

Em seguida, aplica esses "códigos de movimento" a um avatar estático, dando vida ao avatar instantaneamente, como mágica!

Gerador de Movimento Guiado por Áudio (Audio-Guided Motion Generation):

Este "gerador" é ainda mais impressionante, pois consegue entender o áudio da conversa entre você e a IA, como um especialista em "localização sonora".

Ele analisa o áudio para identificar quem está falando e quem está ouvindo, ajustando dinamicamente o estado do avatar de IA, permitindo a alternância entre "falar" e "ouvir" sem intervenção manual.

Ele também possui dois "bancos de dados", armazenando movimentos para "falar" e "ouvir", como dois "baús do tesouro", prontos para fornecer os movimentos mais adequados.

Ele também ajusta o humor e a atitude do avatar de IA de acordo com o seu estilo de voz, tornando a conversa mais animada e interessante.

Por fim, ele usa uma técnica chamada "modelo de difusão" para transformar esses movimentos em animações suaves e naturais, sem travamentos.

DyConv: um conjunto de dados de conversas gigantesco e cheio de "fofocas"!

Para treinar essa "super IA" INFP, os pesquisadores coletaram um conjunto de dados de conversas em grande escala, chamado DyConv!

Este conjunto de dados contém mais de 200 horas de vídeos de conversas, com pessoas de todos os lugares, discutindo os mais diversos assuntos – um verdadeiro "centro de fofocas".

A qualidade dos vídeos do conjunto de dados DyConv é muito alta, garantindo a clareza dos rostos de todos.

Os pesquisadores também usaram um modelo de separação de voz de última geração para extrair individualmente a voz de cada pessoa, facilitando o aprendizado da IA.

As "diversas habilidades" da INFP: não só conversa, mas também...

A INFP não só se destaca em diálogos entre duas pessoas, mas também brilha em outros cenários:

Modo "escuta" (Listening Head Generation): ela pode fazer expressões e movimentos correspondentes ao conteúdo da fala do interlocutor, como um "bom aluno" que presta atenção.

Modo "papagaio" (Talking Head Generation): ela pode fazer o avatar reproduzir movimentos labiais realistas com base no áudio, como um mestre em "imitador de sons".

Para demonstrar a potência da INFP, os pesquisadores realizaram diversos experimentos, mostrando que:

Em vários indicadores, a INFP superou outros métodos semelhantes, obtendo resultados excelentes em qualidade de vídeo, sincronização labial e diversidade de movimentos.

Em termos de experiência do usuário, os participantes concordaram que os vídeos gerados pela INFP são mais naturais, vívidos e apresentam melhor correspondência com o áudio.

Os pesquisadores também realizaram experimentos de ablação, demonstrando que cada módulo da INFP é essencial.

Endereço do projeto: https://grisoon.github.io/INFP/

Tecnologia INFP Avatar virtual Ajuste dinâmico Diálogo a dois

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

ByteDance lança OmniHuman-1: Transformando uma foto em um avatar virtual realista e falante

Imagine: apenas com uma foto, você pode ver essa pessoa falando, se movendo e até mesmo atuando em segundos. Essa é a magia do OmniHuman-1, lançado pela ByteDance. Este modelo de inteligência artificial, que recentemente viralizou na internet, consegue gerar vídeos altamente realistas, dando vida a imagens estáticas. Combinado com um áudio, ele sincroniza os movimentos labiais, os movimentos corporais e as expressões faciais. Diferentemente das tecnologias tradicionais de deepfake, o OmniHuman-1 não se limita apenas à substituição de rostos, mas consegue animar o corpo inteiro.

Feb 11, 2025

2.4k

ESPN está testando o FACTS, um avatar virtual gerado por IA

A ESPN está desenvolvendo um avatar virtual gerado por inteligência artificial, chamado FACTS, para seu programa de futebol americano universitário de sábado, SEC Nation. O avatar utilizará informações da ESPN Analytics, incluindo o Índice de Poder de Futebol (FPI), estatísticas de jogadores e times e cronogramas de jogos, para promover educação e diversão em análises esportivas. Imagem: ESPN O FACTS é descrito como o primeiro estatístico da ESPN, Howie Schwab.

Nov 18, 2024

1.0k

ElevenLabs lança projeto open source X-to-Voice: transforme sua conta do Twitter em um avatar virtual personalizado com um clique

A empresa de inteligência artificial ElevenLabs lançou recentemente um projeto open source impressionante chamado 'X-to-Voice'. Esta ferramenta analisa inteligentemente perfis de usuários do Twitter para gerar automaticamente uma voz digital e um avatar dinâmico que combinam com a personalidade do usuário. Este projeto inovador integra várias tecnologias de ponta: a API de design de som desenvolvida pela própria ElevenLabs é responsável pela geração de som, enquanto a ferramenta Taedra cuida da criação do avatar dinâmico. Em termos de suporte técnico, o projeto usa o Apify para extrair dados de perfis e imagens.

Nov 1, 2024

3.0k

iFlytek: Lançamento de tecnologia de interação visual multimodal em 24 de outubro

Hoje, a iFlytek anunciou que o iFlytek Global Developers Festival 2024 será realizado em 24 de outubro. Neste evento, a iFlytek anunciará melhorias significativas no modelo de linguagem iFlytek em matemática, códigos e processamento de textos longos, mantendo sua liderança em capacidades gerais de inglês e chinês. A iFlytek também exibirá pela primeira vez sua tecnologia de interação visual multimodal e capacidade de interação de avatar virtual hiper-realista. Essas tecnologias inovadoras buscam criar uma experiência de interação homem-máquina mais inteligente e humana, impulsionando o progresso da conectividade universal. Em aplicações do setor...

Oct 10, 2024

2.3k

Ferramenta Spiritme AI: Crie um avatar virtual em 5 minutos com vídeos gravados no celular

A Spiritme AI é uma ferramenta semelhante ao Heygen que permite capturar sua aparência, movimentos e expressões a partir de um vídeo de 5 minutos gravado com seu iPhone, criando um avatar virtual. A ferramenta permite converter arquivos PPT e PDF em vídeos explicativos com apenas dois cliques, simplificando enormemente o processo de produção de vídeo. As principais funções incluem criação de avatar virtual, conversão de texto em vídeo, assistente de filmagem com IA, função AI ScriptWriter e suporte para múltiplos idiomas. Os usuários podem gerar facilmente conteúdo em diversos idiomas.

Dec 29, 2023

1.6k

Delphi, startup de IA: criando avatares digitais de celebridades e influenciadores

A Delphi é uma startup de inteligência artificial dedicada à criação de chatbots digitais personalizados para expandir a interação entre celebridades e influenciadores e seus fãs. A empresa molda celebridades e influenciadores usando várias fontes de dados para permitir que eles interajam com um público maior. A Delphi levantou US$ 2,7 milhões em financiamento e planeja usar modelos de código aberto, com o projeto aparentemente usando tecnologia OpenAI. Mais de 100 criadores de chatbots e milhares de usuários participaram de testes privados. A visão da Delphi é capacitar celebridades com tecnologia de IA para...

Sep 19, 2023

1.6k