Bluepeak contrata Lana Frank como diretora comercial
Mar 06, 2023O mercado de Fibra para x (FTTx) deverá atingir US$ 17,3 bilhões até 2033, crescendo a 5,4% CAGR
Mar 08, 2023Tendências e previsões do mercado de transceptores ópticos CX4O mercado global de transceptores ópticos CX4 deve atingir US $ 0,27 bilhão até 2028, com um CAGR de 15,8% de 2023 a 2028
Mar 10, 2023O Google Fiber não participará 'diretamente' de programas de financiamento do governo
Mar 12, 2023Mercado de tubos HDPE Benefício máximo e potencial de crescimento dos principais players 2030: o setor FTTx inclui informações detalhadas sobre os principais players do setor. Dutron Group, Miraj Pipes & Conexões Pvt. Ltd., Gamson India Private Limited, Nagarjuna Polymers, Apollo Pipes, Mangalam Pipes Unip. Ltda
Mar 14, 2023Meta, MIT e outros testam braço robótico em infraestrutura óptica de IA
Por Agam Shah
19 de abril de 2023
Pesquisadores da Meta, MIT e outras instituições conectaram servidores com uma dúzia de GPUs Nvidia com interruptores ópticos e um braço robótico, criando uma nova interconexão que poderia ser usada para aprendizado de máquina. A malha, chamada "TopoOpt", pode criar topologias de rede em tempo real, dependendo das necessidades de computação. A tecnologia chega quando os computadores de alto desempenho estão sendo pressionados pela adoção mais ampla de tecnologias de IA como o ChatGPT, que está testando os limites da supercomputação de IA da Microsoft.
Um artigo sobre a tecnologia foi apresentado no USENIX Symposium on Networked Systems Design and Implementation, que está sendo realizado esta semana.
A TopoOpt usa algoritmos para encontrar as técnicas de computação paralela mais rápidas com base em informações como requisitos de processamento, recursos de computação disponíveis, técnicas de roteamento de dados e topologia de rede. Os pesquisadores também aprimoraram o recurso AllReduce da Nvidia, que minimiza o tempo de comunicação entre as GPUs e outros componentes.
“A TopoOpt cria partições dedicadas para cada trabalho de treinamento usando switches ópticos reconfiguráveis e painéis de conexão e otimiza conjuntamente a topologia e a estratégia de paralelização dentro de cada partição”, escreveram os pesquisadores.
Os pesquisadores testaram o TopoOpt dentro da infraestrutura Meta, usando uma dúzia de servidores Asus ESC4000A-E10, cada um equipado com uma GPU A100, HPE NICs e um Mellanox ConnectX5 NIC de 100 Gbps. Os NICs tinham transceptores ópticos com fibras breakout.
“O TopoOpt é o primeiro sistema que cootimiza a estratégia de topologia e paralelização para cargas de trabalho de ML e está atualmente sendo avaliado para implantação na Meta”, disseram os pesquisadores.
A configuração também usa um patch panel da Telescent que reconfigura uma rede usando "um braço robótico que pega uma fibra no lado de transmissão e a conecta a uma fibra no lado de recepção", disse o jornal. O braço robótico – que é controlado por software – se move para cima e para baixo para conectar a fibra de transmissão com uma fibra de receptor em qualquer lugar do sistema. Isso fornece a flexibilidade e a elasticidade necessárias para reconfigurar rapidamente uma rede. Patch Panels já são amplamente utilizados em aplicações comerciais, mas agora estão sendo propostos para uso em datacenters.
O Google apresentou recentemente um documento detalhando como usou um supercomputador AI com interruptores de circuito óptico para melhorar as velocidades de treinamento em seus chips TPU v4, mantendo o consumo de energia baixo. A comutação de circuito óptico (OCS) na configuração do Google não é tão móvel quanto um braço robótico, mas usa espelhos para alternar entre as fibras de entrada e saída. A configuração do Google também foi um banco de teste maior, com uma implantação em escala em 4.096 TPUs.
Os pesquisadores optaram pelo patch panel, pois descobriram que os switches ópticos no estilo do Google eram "cinco vezes mais caros" e também suportavam menos portas. Ao mesmo tempo, os pesquisadores disseram que a tecnologia OCS, como a usada no Google, destina-se a implantações em escala. “A principal vantagem dos OCSs é que sua latência de reconfiguração é quatro ordens de magnitude mais rápida do que os painéis de conexão”, escreveram os pesquisadores.
O TopoOpt pré-provisiona os requisitos de computação e rede e está pronto para funcionar assim que os servidores estiverem prontos e a tarefa estiver pronta para implantação. “Já sabemos a sequência de chegadas de trabalhos e o número de servidores necessários para cada trabalho”, escreveram os pesquisadores, acrescentando que “esse projeto permite que cada servidor participe de duas topologias independentes”.
Os pesquisadores concluíram que o TopoOpt fornecia um tempo de iteração de treinamento 3,4 vezes mais rápido do que outra técnica chamada "árvore gorda", na qual o backbone de rede é a peça central da infraestrutura, que então lida com dados para várias camadas de switches estáticos que ligam o back-end da rede principal hardware para servidores front-end. Essa técnica é amplamente utilizada hoje.
O uso de rede óptica em um datacenter é um novo conceito, e os pesquisadores estão introduzindo o braço robótico e um novo protocolo de comunicação como uma maneira mais barata de construir uma infraestrutura de rede de IA. A viabilidade da tecnologia está sendo testada pela Meta.