Recientemente, Meta lanzó una nueva herramienta llamada NotebookLlama, que se podría considerar una versión de código abierto de la popular función de generación de podcasts de NotebookLM de Google.

NotebookLlama utiliza el modelo Llama de Meta para procesar texto y puede convertir archivos cargados por el usuario en resúmenes interactivos con estilo de podcast, lo cual suena genial.

image.png

En concreto, NotebookLlama primero convierte los archivos cargados, como artículos de noticias o publicaciones de blogs en formato PDF, en transcripciones de texto. Luego, añade elementos dramáticos e inserciones de diálogo al texto, y finalmente lo lee en voz alta mediante un modelo de texto a voz de código abierto. Aunque este proceso suena interesante, según algunos ejemplos que he escuchado, el sonido generado todavía tiene un marcado tono robótico y, ocasionalmente, se producen superposiciones de audio, lo que suena algo antinatural.

Sin embargo, el equipo de investigación de NotebookLlama afirma que confía en que la calidad del audio mejorará con el desarrollo de modelos más potentes. En la página de GitHub del proyecto, mencionan: "Los modelos de texto a voz son un factor limitante para la naturalidad del audio". Además, el equipo propone una nueva idea: crear el esquema del podcast mediante un debate entre dos personajes sobre un tema, en lugar del enfoque actual que utiliza un solo modelo para esta tarea.

Cabe destacar que NotebookLlama no es el primer proyecto que intenta replicar la función de generación de podcasts de NotebookLM; ha habido intentos similares antes, con resultados variables. Aun así, ningún proyecto, incluido el propio NotebookLM, ha logrado resolver completamente el problema de las "alucinaciones" en el contenido generado por IA, es decir, los podcasts generados aún pueden contener información falsa.

El lanzamiento de NotebookLlama ofrece nuevas posibilidades para la generación de podcasts de código abierto. Aunque existen algunos desafíos técnicos, el potencial futuro es enorme.

Enlace al proyecto: https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

Puntos clave:

🎧 NotebookLlama es una herramienta de generación de podcasts de código abierto lanzada por Meta, que utiliza el modelo Llama para procesar archivos cargados por el usuario.

🤖 La herramienta convierte texto en resúmenes con estilo de podcast, pero la calidad del audio generado actualmente es baja, con un tono robótico y problemas de superposición de audio.

📉 Los podcasts generados por IA aún pueden contener información falsa, un desafío común en todos los proyectos de IA.