Comment tester les réseaux de centres de données d'IA

Plateforme de test pour les centres de données d'IA
+ 800GE Traffic Emulator

Reproduire le comportement réaliste du réseau des charges de travail de l'intelligence artificielle

L'évaluation comparative des clusters d'intelligence artificielle / d'apprentissage automatique (IA / ML) avec des charges de travail réalistes nécessite généralement des investissements dans des systèmes informatiques dotés de GPU et de contrôleurs d'interface réseau (NIC) à accès direct à la mémoire à distance (RDMA), dont la construction et l'exploitation sont coûteuses et chronophages. Le déploiement et l'exploitation de ces systèmes pour la validation et l'expérimentation à l'échelle du térabit en laboratoire sont nécessaires pour optimiser pleinement les réseaux d'IA. L'évaluation comparative et le test des réseaux d'IA nécessitent la configuration de paramètres tels que la configuration de la grappe, le contrôle de la congestion, les algorithmes de charge de travail, la taille des données de travail, le profil du trafic et les performances de la carte réseau.

La génération d'un trafic réaliste et à grande échelle de charges de travail d'IA pour l'évaluation comparative des réseaux nécessite des émulateurs de points d'extrémité RDMA / RDMA over Converged Ethernet (RoCEv2) et des logiciels avec des méthodologies prêtes à l'emploi qui prennent en charge des modèles de communications collectives - y compris all-to-all, all-reduce, all-gather, et plus encore. Le logiciel fournit des charges de travail spécifiques aux réseaux d'IA qui mesurent des paramètres clés tels que le temps d'exécution des tâches, l'algorithme et la bande passante du bus, ainsi que des informations sur les performances de la structure du réseau.

Solution de test du réseau des centres de données d'IA

Le test d'un réseau de centre de données d'IA nécessite des émulateurs de trafic réseau et des logiciels avec des méthodologies prêtes à l'emploi qui prennent en charge les charges de travail d'IA. La solution de test de réseau de centre de données d'IA comprend l'émulation de point d'extrémité AresONE 800GE RoCEv2 de Keysight associée au logiciel AI Data Center Builder de Keysight. Cette solution peut créer de manière répétée des scénarios avec différentes tailles de données résultant de communications collectives dans un cluster d'IA. Chaque port de l'AresONE émule un GPU et un NIC RDMA. Le trafic comprend l'émulation de connexions et de flux de paires de files d'attente (QP), la génération de notifications de congestion, l'exécution d'un contrôle dynamique de débit basé sur la notification de congestion quantifiée du centre de données (DCQCN) et la flexibilité nécessaire pour tester le débit, la gestion de la mémoire tampon et le hachage multi-trajet à coût égal (ECMP). Grâce à cette solution, les ingénieurs peuvent concevoir des améliorations dans un laboratoire ou un environnement d'essai, effectuer des analyses comparatives et appliquer les résultats à un environnement de production sans avoir besoin de nœuds de calcul et de cartes d'interface réseau dédiés à l'IA dans le laboratoire.

Voir la démo de notre solution de test de centre de données d'IA

Découvrez les produits de nos solutions de test de réseaux

Cas d'utilisation connexes

contactez-nous logo

Contactez l'un de nos experts

Besoin d'aide pour trouver la solution qui vous convient ?