Tal como o NotebookLM, o NotebookLlama foi concebido para criar resumos em estilo podcast a partir de ficheiros de texto como PDFs ou artigos. No entanto, a ferramenta da Meta destaca-se por utilizar os modelos AI Llama da própria Meta para o processamento.
O NotebookLlama começa por gerar uma transcrição dos ficheiros analisados e, de seguida, adiciona "dramatização" e interjeições. Depois, utiliza modelos abertos de conversão de texto para fala para transformar o texto em áudio, tentando criar um estilo de conversa mais natural. No entanto, os resultados ainda ficam aquém dos do NotebookLM, com as vozes a serem robóticas e algumas partes a poderem sofrer de má sincronização e sobreposições estranhas.
A Meta reconhece estas limitações, apontando que a qualidade do modelo de conversão de texto para fala é o principal factor para se obter um resultado final de melhor qualidade. A equipa também já está a trabalhar noutras melhorias, como desenvolver um modelo com dois agentes que debatam o podcast, tal como o NotebookLM já permite.Wow! Meta dropped an open NotebookLM recipe: NotebookLlama 🔥
— Vaibhav (VB) Srivastav (@reach_vb) October 27, 2024
It uses L3.2 1B/ 3B for pre-processing the PDF, L3.1 70B for Transcript creation, L3.1 8B for re-writes and Parler TTS for Text to Speech ⚡
Step 1: Pre-process PDF: Use Llama-3.2-1B-Instruct to pre-process the PDF… pic.twitter.com/L7hb5GsMtl
Apesar disso, o facto de ser um projecto open-source faz com que seja automaticamente mais atractivo para ser usado em projectos, e atrair a atenção da comunidade para que seja melhorado e expandido.
Sem comentários:
Enviar um comentário