Optimiser les performances et l'efficacité du réseau d'IA

Accélérez les déploiements de centres de données d'IA, validez les performances des SmartNIC et testez les composants de mise en réseau sous pression. Utilisez des émulateurs de trafic réels pour suivre en temps réel une série de mesures d'IA standard, telles que le temps d'exécution des tâches et la bande passante de communication collective. Benchmarker les performances des réseaux d'IA, détecter les goulets d'étranglement et optimiser la distribution des charges de travail d'IA avec des outils de test réseau optimisés pour l'IA, notamment des émulateurs de charges de travail d'IA, des générateurs de trafic réseau distribué et des émulateurs de trafic réseau.

Validation de l'Ethernet sans perte à des vitesses allant jusqu'à 1,6T

Gardez une longueur d'avance sur l'accélération des demandes de performance en assurant une transmission fiable des données dans les réseaux d'IA / ML et de calcul à haute performance.

Tester sous pression les équipements de réseau d'IA contre des émulations de charge de travail d'IA

Réduisez le besoin de configurations de laboratoire coûteuses basées sur le GPU grâce à des générateurs de trafic à haute densité qui émulent le comportement des charges de travail d'IA afin d'optimiser les performances et l'efficacité.

Découvrez l'impact des paramètres réseau spécifiques à l'IA sur les performances

Choisissez parmi un éventail de modèles de trafic et de profils de charge de travail pour simplifier l'analyse comparative et tester les performances du réseau au niveau des composants et du système.

Perspective exécutive : Keysight AI Solutions

Écoutez Ram Periakaruppan, vice-président et directeur général de l'activité Applications réseau et sécurité chez Keysight Technologies, discuter des principaux défis auxquels sont confrontés les centres de données d'IA, de la manière d'optimiser les performances et l'efficacité de l'IA et de l'aide apportée par Keysight grâce à son portefeuille de solutions pour centres de données prêtes pour l'IA.

En savoir plus sur les réseaux d'IA

Foire aux questions : Réseaux d'IA

Dans un réseau traditionnel, le type et la taille de la charge de travail varient, le trafic est réparti sur différentes connexions, augmente proportionnellement au nombre d'utilisateurs et les paquets retardés ou abandonnés ne posent généralement pas de problèmes importants. Dans un réseau d'IA, les GPU travaillent tous sur le même problème, à savoir la construction d'un grand modèle de langage (LLM). Les charges de travail nécessaires à la construction d'un LLM requièrent le partage de quantités massives de données entre les GPU, sans que les paquets ne tombent ou ne soient congestionnés. Les GPU travaillant tous sur le même problème, ils achèvent une tâche lorsque le dernier GPU termine son traitement. Tout retard dans la livraison des données à un GPU entraîne un retard de l'ensemble de la charge de travail.

L'optimisation d'un réseau d'IA est différente de celle d'un réseau de centre de données traditionnel. Les réseaux d'IA fonctionnent presque à pleine capacité et doivent être sans perte pour maximiser l'utilisation du GPU. Différents mécanismes de congestion sont disponibles avec différents paramètres. L'exécution de charges de travail d'IA en laboratoire avec des outils d'analyse comparative permet de trouver les configurations et les paramètres optimaux qui peuvent ensuite être appliqués aux environnements de production.

Dans un réseau d'IA, les GPU travaillent sur le même problème et ne terminent une tâche que lorsque le dernier GPU reçoit les données dont il a besoin et termine le traitement. L'une des principales mesures des performances d'un réseau d'IA est la latence de queue, c'est-à-dire les flux dont le temps d'exécution est le plus long. La mesure est appelée P95 - le temps d'achèvement des 5 % de flux les plus lents du réseau.

RDMA est un acronyme qui signifie Remote Direct Memory Access (accès direct à la mémoire à distance). RDMA permet aux GPU de transférer des données entre eux dans un centre de données d'IA avec une implication minimale du CPU et des piles de réseau. Cela permet des communications à faible latence et à haut débit dans un centre de données d'IA. Les cartes d'interface réseau compatibles RDMA d'un serveur se connectent à des commutateurs compatibles RDMA pour permettre une communication à grande vitesse entre les GPU.

Ultra Ethernet (UE) ajoute des capacités à Ethernet pour fournir un réseau rapide, hautement évolutif et à faible latence pour les besoins de l'intelligence artificielle et de l'informatique à haute performance. La pulvérisation de paquets permet aux flux d'utiliser plus d'un chemin vers une destination, ce qui permet d'améliorer l'équilibrage de la charge sur le réseau. L'ordre flexible permet aux paquets d'arriver à leur destination dans le désordre. Le contrôle de l'encombrement basé sur le récepteur s'appuie sur les mécanismes existants de contrôle de l'encombrement basé sur l'expéditeur pour améliorer l'encombrement interne qui se produit avec les collectifs d'IA tels que All-to-All. L'amélioration de la télémétrie permet d'accélérer les délais de signalisation au niveau du plan de contrôle, ce qui améliore la réponse aux événements de congestion. L'UE est interopérable avec les commutateurs Ethernet existants des centres de données, mais fonctionnera plus efficacement - avec une plus grande utilisation du réseau et une latence réduite - en utilisant des commutateurs et des cartes d'interface réseau basés sur l'UE.

Le déplacement des données entre les GPU est appelé opération collective. Il en existe plusieurs types, en fonction de l'emplacement initial et final des données et de la nécessité éventuelle d'effectuer une opération mathématique sur les données au cours du processus. Les types les plus courants sont Broadcast and Gather, ReduceScatter, AllGather, AllReduce et AlltoAll. La présence du mot-clé "reduce" dans le nom de l'opération signifie que celle-ci effectue des calculs sur les données. Une opération collective peut être mise en œuvre à l'aide d'un nombre quelconque d'algorithmes. Les algorithmes bien connus pour AllReduce sont Ring unidirectionnel et bidirectionnel, Double Binary Tree et Halving-Doubling. Chacun d'entre eux présente des performances plus ou moins bonnes en fonction du nombre de GPU et de la manière dont ils sont interconnectés.

Vous avez besoin d'aide ou vous avez des questions ?