2026/04/23

Novo TPU 8 da Google chega em duas variantes

A mais recente geração de TPUs da Google chega em versões diferenciadas - TPU 8t e TPU 8i - optimizadas para o treino e para a inferência de modelos AI.

A Google acaba de apresentar uma nova geração dos seus chips de inteligência artificial, mas desta vez com uma abordagem diferente: em vez de um único modelo, a empresa lançou dois TPUs distintos, cada um pensado para uma fase específica do processamento AI: o treino e a inferência.

Os novos chips chamam-se TPU 8t e TPU 8i. O primeiro foi concebido para treinar modelos AI, enquanto o segundo é focado na execução desses modelos depois de estarem prontos - ou seja, gerar respostas, conteúdo ou acções em tempo real.
No caso do TPU 8t, o objectivo foi acelerar drasticamente o treino de modelos avançados. Segundo a Google, tarefas que antes demoravam meses podem agora ser concluídas em semanas. Os "pods" podem incluir até 9.600 chips com dois petabytes de memória partilhada, numa arquitectura que permite combinar até um milhão de chips num único cluster lógico, em preparação para o treino de modelos AI cada vez maiores.

Em termos de desempenho, cada pod com TPU 8t pode atingir até 121 FP4 EFlops de capacidade de cálculo, quase três vezes mais que a geração anterior. A Google destaca também uma taxa de "goodpute" de 97%, ou seja, a maior parte da energia e recursos são efectivamente utilizados em computação útil, com menor desperdício. Melhorias na gestão de memória, detecção automática de falhas e monitorização em tempo real ajudam a manter o máximo desempenho do sistema durante o processo de treino.

Já o TPU 8i foi desenvolvido para a fase de inferência, onde o foco é eficiência e a rapidez na execução de tarefas. Como esta fase não exige tanto poder bruto, faz mais sentido usar hardware optimizado para lidar com múltiplos agentes e pedidos simultâneos. Estes chips operam em pods com até 1.152 chips, oferecendo cerca de 11.6 EFlops por cluster.
Uma das principais melhorias do TPU 8i está na memória integrada. Cada chip inclui agora 384 MB de SRAM, três vezes mais do que na geração anterior, permitindo manter mais dados directamente no chip e acelerar tarefas com contextos longos. Além disso, esta nova geração abandona completamente os CPUs x86 usados para a gestão, passando a usar exclusivamente CPUs ARM Axion da Google. Cada CPU serve dois TPUs, o que melhora a eficiência global do sistema. A eficiência é, aliás, um dos grandes focos desta nova geração. A Google indica que os novos TPUs oferecem o dobro do desempenho por watt em comparação com a geração anterior. Nos centros de dados, a integração entre rede e computação, bem como melhorias no design dos clusters, terá permitido aumentar em até seis vezes a capacidade de processamento por unidade de energia.

Estes novos TPUs vão servir de base para os sistemas AI da própria Google, incluindo os agentes baseados no Gemini, mas também estão disponíveis para developers externos, com compatibilidade com frameworks populares como PyTorch, JAX, vLLM e SGLang.

Numa altura em que muitas empresas continuam a lutar com os custos do processamento AI - e a elevar o preço das mensalidades / uso - estes chips poderão dar uma vantagem importante à Google a nível de fornecer serviços AI a custo reduzido a centenas de milhões de utilizadores.

Sem comentários:

Enviar um comentário (problemas a comentar?)