banner
Lar / blog / Meta, MIT e outros testam braço robótico em infraestrutura óptica de IA
blog

Meta, MIT e outros testam braço robótico em infraestrutura óptica de IA

Jun 23, 2023Jun 23, 2023

Por Agam Shah

19 de abril de 2023

Pesquisadores da Meta, MIT e outras instituições conectaram servidores com uma dúzia de GPUs Nvidia com interruptores ópticos e um braço robótico, criando uma nova interconexão que poderia ser usada para aprendizado de máquina. A malha, chamada "TopoOpt", pode criar topologias de rede em tempo real, dependendo das necessidades de computação. A tecnologia chega quando os computadores de alto desempenho estão sendo pressionados pela adoção mais ampla de tecnologias de IA como o ChatGPT, que está testando os limites da supercomputação de IA da Microsoft.

Um artigo sobre a tecnologia foi apresentado no USENIX Symposium on Networked Systems Design and Implementation, que está sendo realizado esta semana.

A TopoOpt usa algoritmos para encontrar as técnicas de computação paralela mais rápidas com base em informações como requisitos de processamento, recursos de computação disponíveis, técnicas de roteamento de dados e topologia de rede. Os pesquisadores também aprimoraram o recurso AllReduce da Nvidia, que minimiza o tempo de comunicação entre as GPUs e outros componentes.

“A TopoOpt cria partições dedicadas para cada trabalho de treinamento usando switches ópticos reconfiguráveis ​​e painéis de conexão e otimiza conjuntamente a topologia e a estratégia de paralelização dentro de cada partição”, escreveram os pesquisadores.

Os pesquisadores testaram o TopoOpt dentro da infraestrutura Meta, usando uma dúzia de servidores Asus ESC4000A-E10, cada um equipado com uma GPU A100, HPE NICs e um Mellanox ConnectX5 NIC de 100 Gbps. Os NICs tinham transceptores ópticos com fibras breakout.

“O TopoOpt é o primeiro sistema que cootimiza a estratégia de topologia e paralelização para cargas de trabalho de ML e está atualmente sendo avaliado para implantação na Meta”, disseram os pesquisadores.

A configuração também usa um patch panel da Telescent que reconfigura uma rede usando "um braço robótico que pega uma fibra no lado de transmissão e a conecta a uma fibra no lado de recepção", disse o jornal. O braço robótico – que é controlado por software – se move para cima e para baixo para conectar a fibra de transmissão com uma fibra de receptor em qualquer lugar do sistema. Isso fornece a flexibilidade e a elasticidade necessárias para reconfigurar rapidamente uma rede. Patch Panels já são amplamente utilizados em aplicações comerciais, mas agora estão sendo propostos para uso em datacenters.

O Google apresentou recentemente um documento detalhando como usou um supercomputador AI com interruptores de circuito óptico para melhorar as velocidades de treinamento em seus chips TPU v4, mantendo o consumo de energia baixo. A comutação de circuito óptico (OCS) na configuração do Google não é tão móvel quanto um braço robótico, mas usa espelhos para alternar entre as fibras de entrada e saída. A configuração do Google também foi um banco de teste maior, com uma implantação em escala em 4.096 TPUs.

Os pesquisadores optaram pelo patch panel, pois descobriram que os switches ópticos no estilo do Google eram "cinco vezes mais caros" e também suportavam menos portas. Ao mesmo tempo, os pesquisadores disseram que a tecnologia OCS, como a usada no Google, destina-se a implantações em escala. “A principal vantagem dos OCSs é que sua latência de reconfiguração é quatro ordens de magnitude mais rápida do que os painéis de conexão”, escreveram os pesquisadores.

O TopoOpt pré-provisiona os requisitos de computação e rede e está pronto para funcionar assim que os servidores estiverem prontos e a tarefa estiver pronta para implantação. “Já sabemos a sequência de chegadas de trabalhos e o número de servidores necessários para cada trabalho”, escreveram os pesquisadores, acrescentando que “esse projeto permite que cada servidor participe de duas topologias independentes”.

Os pesquisadores concluíram que o TopoOpt fornecia um tempo de iteração de treinamento 3,4 vezes mais rápido do que outra técnica chamada "árvore gorda", na qual o backbone de rede é a peça central da infraestrutura, que então lida com dados para várias camadas de switches estáticos que ligam o back-end da rede principal hardware para servidores front-end. Essa técnica é amplamente utilizada hoje.

O uso de rede óptica em um datacenter é um novo conceito, e os pesquisadores estão introduzindo o braço robótico e um novo protocolo de comunicação como uma maneira mais barata de construir uma infraestrutura de rede de IA. A viabilidade da tecnologia está sendo testada pela Meta.