Recentemente, a Meta lançou uma nova ferramenta chamada NotebookLlama, que pode ser considerada uma versão de código aberto do popular recurso de geração de podcasts do NotebookLM do Google.

O NotebookLlama utiliza o modelo Llama da própria Meta para processar texto, podendo transformar arquivos enviados pelos usuários em resumos interativos em estilo podcast – algo bastante interessante.

image.png

Especificamente, o NotebookLlama primeiro converte o arquivo carregado, como um artigo de notícias ou postagem de blog em PDF, em um texto. Em seguida, adiciona elementos dramáticos e inserções de diálogo ao texto, antes de lê-lo usando um modelo de texto para fala de código aberto. Embora o processo pareça divertido, de acordo com alguns exemplos que ouvi, a voz gerada ainda apresenta uma clara sensação artificial e, ocasionalmente, sobreposição de áudio, o que soa um pouco antinatural.

No entanto, a equipe de pesquisa do NotebookLlama afirma acreditar que a qualidade da voz melhorará com o desenvolvimento de modelos mais poderosos. Em sua página do GitHub, eles mencionam: "Os modelos de texto para fala são um fator limitante na naturalidade do áudio." Além disso, a equipe propõe uma nova ideia: escrever roteiros de podcasts por meio de um debate entre dois personagens sobre um tema, em vez do método atual que utiliza um único modelo para essa tarefa.

Vale notar que o NotebookLlama não é o primeiro projeto a tentar replicar a funcionalidade de podcast do NotebookLM; houve tentativas semelhantes antes, com resultados variados. Mesmo assim, nenhum projeto, incluindo o próprio NotebookLM, consegue resolver completamente o problema de "alucinações" em conteúdo gerado por IA, ou seja, esses podcasts ainda podem conter informações falsas.

O lançamento do NotebookLlama oferece novas possibilidades para a geração de podcasts de código aberto. Embora ainda existam alguns desafios técnicos, o potencial futuro é enorme.

Acesso ao projeto: https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

Destaques:

🎧 NotebookLlama é uma ferramenta de geração de podcasts de código aberto da Meta, que utiliza o modelo Llama para processar arquivos enviados pelos usuários.

🤖 A ferramenta converte texto em resumos em estilo podcast, mas a qualidade do áudio gerado é atualmente baixa, apresentando artificialidade e sobreposição de áudio.

📉 Podcasts gerados por IA ainda podem conter informações falsas, um desafio comum a todos os projetos de IA.