Meta a récemment publié un projet appelé NotebookLlama, capable de générer des résumés de type podcast, similaires à NotebookLM de Google. Ce projet utilise le propre modèle Llama de Meta pour traiter des fichiers texte téléchargés et générer des résumés sous forme de podcast.

Tout d'abord, NotebookLlama crée une transcription à partir du fichier (par exemple, un PDF d'article de presse ou de blog). Ensuite, il ajoute des « effets dramatiques » et des interruptions, avant d'envoyer la transcription à un modèle de texte vers la parole. Bien que les résultats sonores soient moins performants que ceux de NotebookLM, les chercheurs de Meta indiquent qu'une amélioration de la qualité est possible grâce à des modèles plus puissants.

QQ20241028-091928.png

Sur la page GitHub de NotebookLlama, ils écrivent : « Le modèle de texte vers la parole limite le caractère naturel de la restitution sonore. » « [De plus] une autre approche pour créer un podcast consisterait à faire discuter deux agents sur un sujet d'intérêt et à générer un plan de podcast. Actuellement, nous utilisons un seul modèle pour créer le plan du podcast. »

Bien que NotebookLlama ne soit pas la première tentative de reproduire la fonctionnalité podcast de NotebookLM, il reste un projet intéressant. Cependant, tous les podcasts générés par l'IA partagent un problème commun : les hallucinations, c'est-à-dire que les podcasts générés par l'IA contiendront inévitablement des éléments fictifs.