Meta hat kürzlich ein Projekt namens NotebookLlama veröffentlicht, das podcastähnliche Zusammenfassungen generieren kann, ähnlich wie Googles NotebookLM. Das Projekt verwendet Metas eigenes Llama-Modell und kann aus hochgeladenen Textdateien podcastähnliche Zusammenfassungen erstellen.
Zuerst erstellt NotebookLlama ein Transkript aus der Datei (z. B. ein PDF von Nachrichtenartikeln oder Blogbeiträgen). Dann fügt es „mehr dramatische Effekte“ und Unterbrechungen hinzu und gibt das Transkript an ein Text-to-Speech-Modell weiter. Obwohl das Ergebnis nicht so gut klingt wie bei NotebookLM, geben die Meta-Forscher an, dass die Qualität durch leistungsstärkere Modelle verbessert werden kann.
Auf der GitHub-Seite von NotebookLlama schreiben sie: „Die Text-to-Speech-Modelle schränken die Natürlichkeit des Klangs ein.“ „[Außerdem] ist eine andere Methode, Podcasts zu erstellen, zwei Agenten ein interessantes Thema diskutieren und einen Podcast-Outline schreiben zu lassen. Derzeit verwenden wir ein einzelnes Modell, um Podcast-Outlines zu schreiben.“
Obwohl NotebookLlama nicht der erste Versuch ist, die Podcast-Funktionalität von NotebookLM zu replizieren, ist es dennoch ein bemerkenswertes Projekt. Allen KI-generierten Podcasts ist jedoch ein gemeinsames Problem eigen: das Problem der Halluzinationen, d. h. KI-generierte Podcasts enthalten zwangsläufig einige fiktive Inhalte.