A EXO Labs, um grupo de investigação formado por especialistas da Universidade de Oxford, realizou um feito curioso: demonstrar o funcionamento do modelo de linguagem Llama 2 (LLM) num PC com Windows 98 de 26 anos, equipado com um processador Pentium II a 350 MHz e apenas 128MB de RAM. A EXO mostrou o antigo computador a gerar texto a uma velocidade bastante respeitável de 35.9 tokens por segundo, graças ao motor de inferência leve llama2.c de Andrej Karpathy.
Este feito não é apenas uma curiosidade técnica; representa a missão da EXO de facilitar o acesso à tecnologia AI, permitindo que modelos AI sejam executados em dispositivos do dia-a-dia, mesmo com recursos limitados.
Fazer este sistema funcionar não foi tarefa fácil. Até coisas como a simples utilização de ratos e teclados se revelaram um desafio, obrigando a recorrer aos acessórios com porta PS/2 - e até a aparentemente simples partilha de ficheiros obrigou a recorrer a FTP, já que não era possível usar pens USB ou discos modernos. No final de todo esse trabalho, o grupo conseguiu executar um modelo LLM de 260K a uma velocidade funcional, embora modelos maiores, como o de 15M, tenham reduzido o desempenho para 1 token por segundo.35.9 tok/sec on Windows 98 🤯
— Alex Cheema - e/acc (@alexocheema) December 28, 2024
This is a 260K LLM with Llama-architecture.
We also tried out larger models. Results in the blog post. https://t.co/QsViEQLqS9 pic.twitter.com/lRpIjERtSr
Os planos futuros da EXO centram-se num novo modelo AI chamado BitNet. Esta arquitectura reduz drasticamente as necessidades de armazenamento, permitindo que um modelo de 7B parâmetros ocupe apenas 1.38 GB, e é projectada funcionar eficientemente em CPUs em vez de GPUs.
Sem comentários:
Enviar um comentário (problemas a comentar?)