Que recherchez-vous ?
Réseaux d'IA
Maximiser les performances du centre de données d'IA.
Optimiser les performances et l'efficacité du réseau d'IA
Accélérez les déploiements de centres de données d'IA, validez les performances des SmartNIC et testez les composants de mise en réseau sous pression. Utilisez des émulateurs de trafic réels pour suivre en temps réel une série de mesures d'IA standard, telles que le temps d'exécution des tâches et la bande passante de communication collective. Benchmarker les performances des réseaux d'IA, détecter les goulets d'étranglement et optimiser la distribution des charges de travail d'IA avec des outils de test réseau optimisés pour l'IA, notamment des émulateurs de charges de travail d'IA, des générateurs de trafic réseau distribué et des émulateurs de trafic réseau.
Tout ce qu'il faut savoir sur les réseaux d'IA
Juniper construit des réseaux IA de nouvelle génération avec Keysight
Découvrez comment Juniper Networks s'est associé à Keysight pour construire une infrastructure réseau pour les réseaux d'intelligence artificielle. Découvrez comment les outils d'émulation de réseau de Keysight ont aidé Juniper à tester et à valider ses produits par rapport aux exigences réelles des centres de données d'IA.
5 stratégies pour optimiser et faire évoluer les centres de données d'IA
L'IA transforme les industries et stimule l'innovation. Cependant, les modèles de trafic uniques, les charges de travail dynamiques et les pressions incessantes sur les performances peuvent transformer les plus petits problèmes en problèmes critiques.
Lisez cet eBook pour découvrir cinq solutions pratiques permettant d'optimiser les performances du centre de données d'IA pour les applications modernes.
Améliorer l'évolutivité des grappes de centres de données d'IA
Votre infrastructure réseau peut-elle évoluer pour gérer les charges de travail complexes et à fort trafic de l'apprentissage de l'IA ? Ce livre blanc se penche sur la mise à l'échelle des clusters de centres de données d'IA, identifie les défis critiques en matière de réseau et explique comment garantir des réseaux évolutifs et fiables pour les ambitions de votre organisation en matière d'IA.
Bootcamp sur la mise en réseau de l'IA
Rejoignez les ingénieurs de Keysight pour une plongée en profondeur dans le monde du test des réseaux d'IA et de la validation des déploiements de centres de données d'IA. À la fin de ce cours, vous aurez acquis les connaissances - et la confiance - nécessaires pour prendre le contrôle de ce nouveau paradigme de réseau innovant et en évolution rapide.
Analyse comparative des opérations collectives
La mesure ou l'analyse comparative des performances du réseau dans un cluster d'IA peut aider les organisations à identifier les opportunités d'optimisation et d'amélioration du débit global sans coûts matériels supplémentaires. Ce livre blanc explique le fonctionnement des collectifs d'IA, définit la terminologie et passe en revue les mesures les plus courantes associées à l'évaluation comparative des réseaux d'IA.
Validation de l'Ethernet sans perte à des vitesses allant jusqu'à 1,6T
Gardez une longueur d'avance sur l'accélération des demandes de performance en assurant une transmission fiable des données dans les réseaux d'IA / ML et de calcul à haute performance.
Tester sous pression les équipements de réseau d'IA contre des émulations de charge de travail d'IA
Réduisez le besoin de configurations de laboratoire coûteuses basées sur le GPU grâce à des générateurs de trafic à haute densité qui émulent le comportement des charges de travail d'IA afin d'optimiser les performances et l'efficacité.
Découvrez l'impact des paramètres réseau spécifiques à l'IA sur les performances
Choisissez parmi un éventail de modèles de trafic et de profils de charge de travail pour simplifier l'analyse comparative et tester les performances du réseau au niveau des composants et du système.
Explorer les solutions pour les réseaux d'IA
Optimiser l'infrastructure de l'IA avec KAI Data Center Builder
Benchmarker la performance des centres de données d'IA avec une fidélité inégalée. KAI Data Center Builder émule la combinaison des communications collectives et des algorithmes utilisés pour construire un grand modèle d'apprentissage (LLM) - ce qui facilite la validation de l'infrastructure de réseau et des tissus d'IA par le biais de tests à l'échelle du système.
Maximiser la fiabilité et les performances de l'Ethernet 1.6T
Testez les produits Ethernet de pointe pour les interconnexions IA et les réseaux de centres de données. Avec la prise en charge des tests des couches physique (L1) et protocolaire (L2-3), le Keysight Interconnect and Network Performance Tester 1600GE offre une couverture de test inégalée pour les interconnexions de câbles optiques et actifs, les commutateurs de réseau et les réseaux d'intelligence artificielle.
Validez les SmartNICs et l'infrastructure LLM avec CyPerf
Testez sous pression des équipements réseau hautes performances contre des émulations de trafic et des scénarios de test intensifs en calcul et natifs de l'IA. Keysight CyPerf facilite l'évaluation des performances, de l'évolutivité et de la stabilité des systèmes grâce à l'analyse comparative, à la simulation du trafic dans le monde réel et aux tests à grande échelle.
Protéger les LLM contre les attaques avancées avec BreakingPoint
Sécurisez les grands modèles de langage contre le type de cyberattaque le plus répandu sur les réseaux d'IA : les attaques par injection rapide. Outil avancé de sécurité des réseaux et de test des applications, Keysight BreakingPoint peut valider la sécurité, la stabilité et les performances des réseaux d'IA - et des équipements de réseau qui les alimentent.
Perspective exécutive : Keysight AI Solutions
Écoutez Ram Periakaruppan, vice-président et directeur général de l'activité Applications réseau et sécurité chez Keysight Technologies, discuter des principaux défis auxquels sont confrontés les centres de données d'IA, de la manière d'optimiser les performances et l'efficacité de l'IA et de l'aide apportée par Keysight grâce à son portefeuille de solutions pour centres de données prêtes pour l'IA.
Dispositifs d'essai pour la validation des réseaux d'IA
Test AI Data Center Networks
Émuler des charges de travail d'IA pour comparer les équipements de réseau et valider les tissus d'IA / ML.
Valider les interconnexions Ethernet
Garantir une transmission de données et une correction d'erreurs de haute qualité en testant la fiabilité et les performances.
Emulation des charges de travail des centres de données d'IA
Optimiser l'infrastructure pour la performance de la formation à l'IA grâce à une méthodologie de test cohérente et évolutive.
En savoir plus sur les réseaux d'IA
Foire aux questions : Réseaux d'IA
Dans un réseau traditionnel, le type et la taille de la charge de travail varient, le trafic est réparti sur différentes connexions, augmente proportionnellement au nombre d'utilisateurs et les paquets retardés ou abandonnés ne posent généralement pas de problèmes importants. Dans un réseau d'IA, les GPU travaillent tous sur le même problème, à savoir la construction d'un grand modèle de langage (LLM). Les charges de travail nécessaires à la construction d'un LLM requièrent le partage de quantités massives de données entre les GPU, sans que les paquets ne tombent ou ne soient congestionnés. Les GPU travaillant tous sur le même problème, ils achèvent une tâche lorsque le dernier GPU termine son traitement. Tout retard dans la livraison des données à un GPU entraîne un retard de l'ensemble de la charge de travail.
L'optimisation d'un réseau d'IA est différente de celle d'un réseau de centre de données traditionnel. Les réseaux d'IA fonctionnent presque à pleine capacité et doivent être sans perte pour maximiser l'utilisation du GPU. Différents mécanismes de congestion sont disponibles avec différents paramètres. L'exécution de charges de travail d'IA en laboratoire avec des outils d'analyse comparative permet de trouver les configurations et les paramètres optimaux qui peuvent ensuite être appliqués aux environnements de production.
Dans un réseau d'IA, les GPU travaillent sur le même problème et ne terminent une tâche que lorsque le dernier GPU reçoit les données dont il a besoin et termine le traitement. L'une des principales mesures des performances d'un réseau d'IA est la latence de queue, c'est-à-dire les flux dont le temps d'exécution est le plus long. La mesure est appelée P95 - le temps d'achèvement des 5 % de flux les plus lents du réseau.
RDMA est un acronyme qui signifie Remote Direct Memory Access (accès direct à la mémoire à distance). RDMA permet aux GPU de transférer des données entre eux dans un centre de données d'IA avec une implication minimale du CPU et des piles de réseau. Cela permet des communications à faible latence et à haut débit dans un centre de données d'IA. Les cartes d'interface réseau compatibles RDMA d'un serveur se connectent à des commutateurs compatibles RDMA pour permettre une communication à grande vitesse entre les GPU.
Ultra Ethernet (UE) ajoute des capacités à Ethernet pour fournir un réseau rapide, hautement évolutif et à faible latence pour les besoins de l'intelligence artificielle et de l'informatique à haute performance. La pulvérisation de paquets permet aux flux d'utiliser plus d'un chemin vers une destination, ce qui permet d'améliorer l'équilibrage de la charge sur le réseau. L'ordre flexible permet aux paquets d'arriver à leur destination dans le désordre. Le contrôle de l'encombrement basé sur le récepteur s'appuie sur les mécanismes existants de contrôle de l'encombrement basé sur l'expéditeur pour améliorer l'encombrement interne qui se produit avec les collectifs d'IA tels que All-to-All. L'amélioration de la télémétrie permet d'accélérer les délais de signalisation au niveau du plan de contrôle, ce qui améliore la réponse aux événements de congestion. L'UE est interopérable avec les commutateurs Ethernet existants des centres de données, mais fonctionnera plus efficacement - avec une plus grande utilisation du réseau et une latence réduite - en utilisant des commutateurs et des cartes d'interface réseau basés sur l'UE.
Le déplacement des données entre les GPU est appelé opération collective. Il en existe plusieurs types, en fonction de l'emplacement initial et final des données et de la nécessité éventuelle d'effectuer une opération mathématique sur les données au cours du processus. Les types les plus courants sont Broadcast and Gather, ReduceScatter, AllGather, AllReduce et AlltoAll. La présence du mot-clé "reduce" dans le nom de l'opération signifie que celle-ci effectue des calculs sur les données. Une opération collective peut être mise en œuvre à l'aide d'un nombre quelconque d'algorithmes. Les algorithmes bien connus pour AllReduce sont Ring unidirectionnel et bidirectionnel, Double Binary Tree et Halving-Doubling. Chacun d'entre eux présente des performances plus ou moins bonnes en fonction du nombre de GPU et de la manière dont ils sont interconnectés.
Vous avez besoin d'aide ou vous avez des questions ?