Come testare le reti di data center AI

Piattaforma di test per centri dati AI
+ Emulatore di traffico 800GE

Riproduzione di un comportamento di rete realistico dei carichi di lavoro dell'IA

Il benchmarking del tessuto di cluster di intelligenza artificiale/apprendimento automatico (AI/ML) con carichi di lavoro realistici richiede in genere investimenti in sistemi di elaborazione con GPU e controller di interfaccia di rete (NIC) ad accesso diretto remoto alla memoria (RDMA), che sono costosi e richiedono tempo per essere costruiti e gestiti. L'implementazione e la gestione di questi sistemi per la convalida su scala terabit e la sperimentazione in laboratorio sono necessarie per ottimizzare completamente le reti di intelligenza artificiale. Un benchmarking e un test adeguati delle reti di IA richiedono la configurazione di parametri quali la configurazione del cluster, il controllo della congestione, gli algoritmi del carico di lavoro, la dimensione dei dati del lavoro, il profilo del traffico e le prestazioni delle NIC.

La generazione di un traffico realistico di carichi di lavoro AI su larga scala per il benchmarking di rete richiede emulatori di endpoint RDMA / RDMA over Converged Ethernet (RoCEv2) e software con metodologie preconfezionate che supportano modelli di comunicazione collettiva, tra cui all-to-all, all-reduce, all-gather e altri ancora. Il software fornisce carichi di lavoro specifici per le reti di intelligenza artificiale che misurano parametri chiave come il tempo di completamento del lavoro, l'algoritmo e la larghezza di banda del bus, nonché informazioni sulle prestazioni del tessuto di rete.

Soluzione di test della rete di data center AI

Il test di una rete di data center AI richiede emulatori di traffico di rete e software con metodologie preconfezionate che supportino i carichi di lavoro AI. La soluzione di test della rete di data center AI comprende l'emulazione di endpoint Keysight AresONE 800GE RoCEv2 abbinata al software Keysight AI Data Center Builder. Questa soluzione è in grado di creare ripetutamente scenari con diverse dimensioni di dati derivanti dalle comunicazioni collettive in un cluster AI. Ogni porta di AresONE emula una GPU e una NIC RDMA. Il traffico comprende l'emulazione di connessioni e flussi a coppia di coda (QP), la generazione di notifiche di congestione, l'esecuzione di un controllo dinamico della velocità basato su Data Center Quantized Congestion Notification (DCQCN) e la flessibilità di testare il throughput, la gestione del buffer e l'hashing multi-path a costo uguale (ECMP). Con questa soluzione, gli ingegneri possono progettare miglioramenti in un ambiente di laboratorio o di staging, eseguire il benchmark e applicare i risultati all'ambiente di produzione senza dover ricorrere a nodi di calcolo AI e NIC dedicati in laboratorio.

Guarda la demo della nostra soluzione di test dei data center AI

Esplora i prodotti delle nostre soluzioni di test di rete

Casi d'uso correlati

contattaci logo

Mettetevi in Contattaci con uno dei nostri esperti

Avete bisogno di aiuto per trovare la soluzione giusta per voi?