Como testar redes de data center com IA

Plataforma de teste de data center de IA
+ Emulador de tráfego 800GE

Reprodução do comportamento realista da rede de cargas de trabalho de IA

O benchmarking de inteligência artificial / aprendizado de máquina (IA / ML) com cargas de trabalho realistas normalmente requer investimentos em sistemas de computação com GPUs e controladores de interface de rede (NICs) de acesso remoto direto à memória (RDMA), que são caros e demorados para construir e operar. A implantação e a operação desses sistemas para validação e experimentação em escala de terabit no laboratório são necessárias para otimizar totalmente as redes de IA. O benchmarking e o teste adequados das redes de IA exigem a configuração de parâmetros como configuração de cluster, controle de congestionamento, algoritmos de carga de trabalho, tamanho dos dados do trabalho, perfil de tráfego e desempenho da NIC.

A geração de tráfego de carga de trabalho de IA realista e de alta escala para benchmarking de rede requer emuladores de ponto de extremidade RDMA/RDMA over Converged Ethernet (RoCEv2) e software com metodologias pré-embaladas que ofereçam suporte a padrões de comunicação coletiva, incluindo all-to-all, all-reduce, all-gather e muito mais. O software fornece as cargas de trabalho de dados específicas para redes de IA que medem os principais parâmetros, como tempo de conclusão do trabalho, largura de banda do algoritmo e do barramento, além de insights sobre o desempenho da malha de rede.

Solução de teste de rede de data center com IA

O teste de uma rede de data center de IA requer emuladores de tráfego de rede e software com metodologias pré-empacotadas que suportam cargas de trabalho de IA. A solução de teste de rede de data center de IA inclui a emulação de endpoint AresONE 800GE RoCEv2 da Keysight em conjunto com o software AI Data Center Builder da Keysight. Essa solução pode criar repetidamente cenários com diferentes tamanhos de dados resultantes de comunicações coletivas em um cluster de IA. Cada porta do AresONE emula uma GPU e uma NIC RDMA. O tráfego inclui a emulação de conexões e fluxos de pares de filas (QP), a geração de notificações de congestionamento, a execução do controle de taxa dinâmico baseado em notificação de congestionamento quantificado do data center (DCQCN) e o fornecimento de flexibilidade para testar a taxa de transferência, o gerenciamento de buffer e o hashing de vários caminhos de custo igual (ECMP). Com essa solução, os engenheiros podem projetar melhorias em um ambiente de laboratório ou de preparação, fazer benchmark e aplicar os resultados a um ambiente de produção sem a necessidade de nós de computação de IA e NICs dedicados no laboratório.

Veja a demonstração da nossa solução de teste de data center com IA

Explore os produtos em nossas soluções de teste de rede

Casos de uso relacionados

logotipo de contato

Entre em contato com um de nossos especialistas

Precisa de ajuda para encontrar a solução certa para você?