2024/03/13

Meta revela dois mega-clusters AI

A Meta tem dois novos mega-clusters para treino de modelos AI; com mais de 24 mil GPUs Nvidia H100.

O mundo tem vivido fascinado pelas capacidades dos modelos AI desde o lançamento do ChatGPT, e que se têm tornado cada vez mais incríveis (como o Sora, que transforma descrições em vídeos). Mas para isso são necessários imensos recursos de hardware, como os novos mega-clusters AI da Meta revelam.

Estes clusters têm 24.576 GPUs Nvidia Tensor Core H100 - e se o número não vos impressiona, até ao final do ano a Meta espera ter 350 mil H100 à disposição. Os dois clusters usam infraestruturas diferentes, um optando pelo Quantum2 InfiniBand da Nvidia, ou outro apostando em RDMA (remote direct memory access) sobre converged Ethernet (RoCE) - talvez para avaliar ambas e ficar com mais dados sobre a melhor opção para os seus futuros clusters.

Ter em conta que cada GPU H100 tem um preço de cerca de 40 mil dólares, e que mesmo considerando eventuais descontos de quantidade, continuam a representar investimentos astronómicos no valor de muitas centenas de milhões de dólares. Felizmente, depois dos modelos treinados, a sua utilização passa a ser bastante mais acessível em termos computacionais, podendo até correr-se alguns dos modelos mais simples localmente num smartphone. Algo que nos próximos anos também deverá avançar significativamente, com a próxima geração de chips para smartphones e PCs a virem com hardware especializado para essa função.

Sem comentários:

Enviar um comentário (problemas a comentar?)