Que recherchez-vous ?
Centres de données sur l'IA
Libérer la prochaine génération d'innovations en matière d'IA
Libérer le potentiel de l'IA
La fiabilité d'un centre de données d'IA dépend de son maillon le plus faible. À la pointe de la performance, chaque puce, câble, interconnexion, commutateur, serveur et GPU représente à la fois un potentiel et un risque. Non seulement les composants individuels doivent fonctionner de manière indépendante, mais ils doivent également fonctionner de manière cohérente en tant que système soumis à une demande incessante.
Construire des réseaux capables de répondre aux exigences des charges de travail de l'IA signifie valider chaque composant, chaque connexion et chaque configuration. Avec des enjeux et une échelle aussi élevés, le moindre gain d'efficacité, la moindre amélioration opérationnelle ou la moindre amélioration des performances peut débloquer des retours significatifs - en réduisant les perturbations et en prévenant les défaillances en cascade.
Centres de données d'IA : Un point d'inflexion technique
Ethernet
Les vitesses des centres de données passeront de 400 / 800G à l'Ethernet à grande vitesse 1,6 / 3,2T.
Mémoire
La DDR5 cède la place à la DDR6 et à la HBM3, avec des vitesses pouvant atteindre 12,8 GT/s.
Optique
Les vitesses de transfert de 112 Gb/s céderont la place aux normes de 224 et 448 Gb/s.
PCIe® / CXL
PCIe® 7 mettra à jour PCIe® 5 et PCIe® 6, les transferts passant de 32 à 128 GT/s.
Test des centres de données d'IA : Un défi à plusieurs niveaux
Accélérer la conception numérique à grande vitesse à l'ère de l'IA
Les centres de données d'IA exigent des semi-conducteurs, des chipsets et des conceptions numériques à haut débit (HSD) prêts pour l'IA. Mais les performances de pointe ont un coût. Les vitesses et les normes sont en constante évolution, et pour rester à jour, il faut parfois penser une ou deux générations à l'avance. Pour se conformer aux exigences de conception avancées, il faut aller au-delà du débogage. Respecter - ou dépasser - les dernières normes PCIe®, DDR et CXL exige des outils de simulation avancés capables d'analyser les conceptions et de prédire les problèmes potentiels avant qu'ils ne surviennent.
Réimaginer l'infrastructure de l'IA pour 1,6T et au-delà
Les centres de données d'intelligence artificielle adoptant des vitesses Ethernet de 1,6T, les fabricants d'équipements de réseau construisent de nouveaux émetteurs-récepteurs optiques pour les prendre en charge. Cependant, la connectivité à haut débit nécessite également une validation à haut débit par rapport aux exigences du monde réel des réseaux d'IA. La mise à l'échelle des tests de R&D et de production implique d'aller au-delà des instruments à faible bruit qui mesurent la couche physique - cela implique également d'utiliser des tests Ethernet de la couche de protocole pour valider les performances dans le monde réel.
Optimiser les performances et l'efficacité des centres de données d'IA
Les réseaux d'IA exigent plus qu'une validation au niveau des composants. Les tests de la couche physique ne suffisent pas. L'interopérabilité, les performances et l'efficacité ne peuvent être mesurées qu'au niveau du système, dans des conditions de réseau réelles. La validation des composants des clusters d'IA, l'optimisation de l'efficacité et la mise à l'échelle de la capacité nécessitent des connaissances avancées tirées de l'émulation de la charge de travail de l'IA à l'échelle de la pile. Le suivi de mesures telles que le temps d'exécution des tâches et la bande passante de communication collective permet de détecter les goulets d'étranglement, d'optimiser la distribution de la charge de travail d'IA et d'identifier les problèmes au niveau des composants qui, autrement, resteraient cachés.
Maximiser l'efficacité énergétique pour faire évoluer les charges de travail d'IA
Dans les centres de données d'IA, la gestion de l'énergie est tout aussi importante que les performances. Cependant, bien que les serveurs et les commutateurs de rack haut de gamme utilisent les meilleures puces et interconnexions, la diaphonie et les interférences électromagnétiques peuvent causer des problèmes de gestion de l'alimentation qui peuvent finalement entraver la capacité d'évolution d'un centre de données d'IA. Sans outils polyvalents d'automatisation de la conception et de mesure, il est extrêmement difficile de simuler les réseaux de distribution d'énergie, d'identifier les causes profondes des problèmes d'alimentation et, en fin de compte, de garantir l'efficacité énergétique.
Améliorez vos connaissances sur les centres de données d'IA
5 stratégies pour optimiser et faire évoluer les centres de données d'IA
L'IA transforme les industries et stimule l'innovation. Cependant, les modèles de trafic uniques, les charges de travail dynamiques et les pressions incessantes sur les performances peuvent transformer les plus petits problèmes en problèmes critiques.
Lisez cet eBook pour découvrir cinq solutions pratiques permettant d'optimiser les performances du centre de données d'IA pour les applications modernes.
Bootcamp sur la mise en réseau de l'IA
Rejoignez les ingénieurs de Keysight pour une plongée en profondeur dans le monde du test des réseaux d'IA et de la validation des déploiements de centres de données d'IA. À la fin de ce cours, vous aurez acquis les connaissances - et la confiance - nécessaires pour prendre le contrôle de ce nouveau paradigme de réseau innovant et en évolution rapide.
Améliorer l'évolutivité des grappes de centres de données d'IA
Votre infrastructure réseau peut-elle évoluer pour gérer les charges de travail complexes et à fort trafic de l'apprentissage de l'IA ? Ce livre blanc se penche sur la mise à l'échelle des clusters de centres de données d'IA, identifie les défis critiques en matière de réseau et explique comment garantir des réseaux évolutifs et fiables pour les ambitions de votre organisation en matière d'IA.
Analyse comparative des opérations collectives
La mesure ou l'analyse comparative des performances du réseau dans un cluster d'IA peut aider les organisations à identifier les opportunités d'optimisation et d'amélioration du débit global sans coûts matériels supplémentaires. Ce livre blanc explique le fonctionnement des collectifs d'IA, définit la terminologie et passe en revue les mesures les plus courantes associées à l'évaluation comparative des réseaux d'IA.
Comment Keysight aide à améliorer les centres de données d'IA
Éliminer les maillons faibles
Garantir les performances des composants grâce à des tests de la couche physique et à des émulations de réseau au niveau du système.
Optimiser chaque couche
Modéliser les conceptions des centres de données, valider les équipements de réseau à l'échelle de l'IA et affiner les performances au niveau du système.
Augmenter la capacité de l'IA
Optimisez les performances de votre centre de données grâce à des émulations réelles de protocoles, d'applications et de réseaux.
Découvrez nos toutes dernières solutions de centre de données IA
Optimiser l'infrastructure de l'IA avec KAI Data Center Builder
Benchmarker la performance des centres de données d'IA avec une fidélité inégalée. KAI Data Center Builder émule la combinaison des communications collectives et des algorithmes utilisés pour construire un grand modèle d'apprentissage (LLM) - ce qui facilite la validation de l'infrastructure de réseau et des tissus d'IA par le biais de tests à l'échelle du système.
Maximiser la fiabilité de l'Ethernet grâce à des testeurs de table à grande vitesse
Testez la nouvelle génération de réseaux et d'interconnexions optimisés pour l'IA. Avec une couverture de test complète de la couche 1-3 et la prise en charge d'une puissance maximale de 40 W par port, le Keysight Interconnect and Network Performance Tester 1.6T offre des capacités de test Ethernet de pointe aux fabricants de commutateurs et aux hyperscalers.
Valider les interconnexions AI avec les oscilloscopes d'échantillonnage DCA-M
Maximisez la fiabilité du réseau avec des oscilloscopes à échantillonnage 224 Gb/s offrant une précision optique et une efficacité de test des émetteurs-récepteurs inégalées. Testez l'équipement réseau 800G / 1,6T prêt pour l'IA avec un logiciel de test optique qui rationalise les tests de fabrication pour les émetteurs-récepteurs optiques à haut volume.
Participez à notre événement AI Showcase
Apprenez à concevoir, valider et mettre à l'échelle les centres de données d'IA sans ressources GPU coûteuses. Découvrez de nouvelles façons de maximiser les performances avec des outils qui fonctionnent depuis la couche physique jusqu'à la couche applicative - tout en participant à des questions-réponses en direct avec les meilleurs ingénieurs de Keysight qui travaillent à la pointe de l'innovation en matière d'IA.
Explorer les configurations de test prêtes pour l'IA
Test AI Data Center Networks
Émuler des charges de travail d'IA pour comparer les équipements de réseau et valider les tissus d'IA / ML.
Valider les interconnexions Ethernet
Garantir une transmission de données et une correction d'erreurs de haute qualité en testant la fiabilité et les performances.
Optimiser les tests des émetteurs-récepteurs optiques 1,6T
Augmentez la production d'émetteurs-récepteurs optiques de 1,6 T grâce à des mesures rapides et efficaces de la dispersion de l'émetteur et du TDECQ.
Emulation des charges de travail des centres de données d'IA
Optimiser l'infrastructure pour la performance de la formation à l'IA grâce à une méthodologie de test cohérente et évolutive.
Analyse des signaux du récepteur PAM4
Utiliser l'analyse d'erreur pour mieux comprendre les signaux des récepteurs PAM4.
Analyse de l'intégrité du signal des circuits imprimés
Réduire les risques liés à l'intégrité du signal dans un circuit imprimé numérique à grande vitesse grâce à la détection et au diagnostic de la diaphonie, de la gigue, du bruit vertical et du bruit de phase.
Effectuer la validation du protocole PCle® 6.0
Réaliser la validation du protocole aux niveaux physique, de la liaison de données et de la transaction.
Évaluer les performances de la FEC
Tester les liaisons Ethernet à haut débit en évaluant le mécanisme de correction des erreurs.
En savoir plus sur les tests des centres de données d'IA
Foire aux questions : Centres de données sur l'IA
Un centre de données d'IA est un type unique d'installation informatique, conçu pour soutenir les applications d'intelligence artificielle (IA). Les centres de données d'IA utilisent des outils robustes, notamment des unités de traitement graphique (GPU) et des unités de traitement tensoriel (TPU), qui leur permettent de traiter de grands volumes de trafic, d'entraîner de grands modèles d'apprentissage (LLM) et d'exécuter des requêtes d'utilisateurs - un terme communément appelé "inférence".
Des centres de données d'IA sont construits dans le monde entier pour répondre à la demande croissante. Cependant, la majorité des centres de données d'IA sont situés aux États-Unis, plus précisément au Texas, en Californie et en Virginie.
Les centres de données prêts pour l'IA présentent plusieurs caractéristiques distinctives :
- Matériel : GPU et TPU hautes performances qui accélèrent le calcul de l'IA.
- Stockage : Systèmes de stockage à grande vitesse et à grande capacité qui gèrent les énormes quantités de données nécessaires à l'apprentissage et à l'inférence de l'IA.
- Refroidissement : L'infrastructure de l'IA génère beaucoup de chaleur, c'est pourquoi les centres de données prêts pour l'IA ont besoin de technologies de refroidissement avancées comme le refroidissement liquide et le refroidissement de précision pour éviter la surchauffe.
- Évolution : Les centres de données d'IA doivent faire évoluer les ressources efficacement en fonction des demandes fluctuantes des tâches d'IA.
- Mise en réseau : les connexions à large bande et à faible latence sont essentielles pour le traitement des données et la communication en temps réel.
- Sécurité : Des mesures de sécurité robustes et une infrastructure fiable garantissent la protection et la disponibilité contre toute une série de cyberattaques spécifiques à l'IA.
Alors que les centres de données traditionnels gèrent un large éventail de tâches informatiques générales, les centres de données d'IA sont optimisés pour le traitement de grands volumes de données, l'entraînement de modèles d'apprentissage à grande échelle et l'inférence par rapport aux requêtes des utilisateurs. Les centres de données traditionnels utilisent des CPU pour les tâches informatiques générales et des architectures de réseau standard pour les transferts de données entre les environnements de stockage, les serveurs et les nuages, tandis que les centres de données d'IA s'appuient sur des GPU, des TPU et des réseaux à grande vitesse et à faible latence pour gérer le mouvement rapide des données entre les processeurs.
Les centres de données d'IA gèrent une grande variété de charges de travail, chacune ayant des exigences uniques en matière de calcul et de stockage. Voici quelques-uns des types de charges de travail les plus courants :
- Charges de travail liées au traitement des données
- Charges de travail liées à l'apprentissage automatique
- Charges de travail pour l'apprentissage en profondeur
- Charges de travail liées au traitement du langage naturel (NLP)
- Charges de travail d'IA générative
- Charges de travail liées à la vision par ordinateur
Les centres de données d'IA utilisent plusieurs stratégies pour une gestion efficace des données - notamment des systèmes de stockage haute performance comme les disques SSD NVMe (pour garantir un accès et une récupération rapides des données), la hiérarchisation des données qui déplace les données entre différents niveaux de stockage (en fonction des modèles d'utilisation), et des techniques de compression et de déduplication des données qui économisent l'espace de stockage et améliorent l'efficacité.
Les centres de données optimisés pour l'IA utilisent du matériel spécialisé pour accélérer la formation et l'inférence. Voici quelques-uns des composants les plus courants :
- Les processeurs graphiques (GPU) : Essential pour les tâches de traitement parallèle, qui sont couramment requises dans les applications d'IA.
- Unités de traitement tensoriel (TPU) : Conçues pour les tâches d'apprentissage automatique, elles offrent des performances élevées en matière d'entraînement et d'inférence pour les modèles d'IA.
- Stockage optimisé pour l'IA : Les solutions de stockage hautes performances telles que les disques SSD NVMe permettent de gérer des ensembles de données volumineux avec une récupération efficace.
- Infrastructure de réseau : Infiniband, Ethernet et NVIDIA Spectrum-X assurent des communications à grande vitesse, réduisent les goulets d'étranglement et améliorent le débit.
- Systèmes de refroidissement : les technologies Advanced , telles que le refroidissement par liquide, contribuent à optimiser l'efficacité thermique de l'ensemble des équipements et de l'infrastructure réseau.
Les GPU et TPU accélèrent les performances des centres de données d'IA en traitant efficacement les demandes de calcul intensif des charges de travail d'IA. Voici quelques avantages clés qu'ils offrent :
- Temps de formation réduit : Les GPU et TPU réduisent le temps d'apprentissage des modèles d'IA, ce qui facilite le développement et le déploiement d'applications d'IA avec rapidité et efficacité.
- Efficacité énergétique : Les GPU et TPU sont économes en énergie, ce qui aide les grandes entreprises à gérer leurs coûts opérationnels et leur impact sur l'environnement.
- Des capacités accrues : Les GPU et les TPU aident les centres de données d'IA à prendre en charge des modèles d'IA plus complexes et plus avancés, ce qui favorise l'innovation dans divers secteurs.
Les cycles de calcul de l'IA génèrent d'énormes quantités de chaleur. C'est pourquoi les centres de données d'IA ont besoin de solutions de refroidissement avancées pour gérer et compenser la chaleur. Voici quelques-unes des techniques les plus courantes utilisées par les centres de données d'IA pour le refroidissement :
- Refroidissement par liquide : Le liquide de refroidissement circule directement dans les sources de chaleur, telles que les GPU et les TPU.
- Refroidissement par immersion : Les composants informatiques sont immergés dans un fluide diélectrique qui absorbe la chaleur plus efficacement que l'air.
- Échangeurs de chaleur à l'arrière : Systèmes de refroidissement qui se fixent à l'arrière des baies de serveurs - utilisant le refroidissement par liquide pour éliminer la chaleur directement à partir de l'air d'échappement de la baie.
Les centres de données d'IA emploient généralement plusieurs stratégies pour garantir l'évolutivité :
- Modularité : Les centres de données d'IA utilisent des composants modulaires qui peuvent être étendus au fur et à mesure que la demande augmente, ce qui permet une mise à l'échelle progressive sans temps d'arrêt important.
- Refroidissement : Un refroidissement efficace est essentiel pour les centres de données d'IA afin de maintenir les performances et la fiabilité. Le refroidissement liquide et la gestion pilotée par l'IA peuvent contribuer à optimiser la consommation d'énergie et à prendre en charge une mise à l'échelle supplémentaire.
- Gestion de l'IA : L'IA peut aider à prévoir et à gérer les charges de travail, à optimiser les ressources et à améliorer l'efficacité du centre de données. Cette approche proactive aide les hyperscalers à s'adapter aux fluctuations de la demande et à maintenir des performances optimales.
L'informatique en périphérie peut améliorer les performances, réduire la latence et optimiser l'utilisation des ressources dans les centres de données d'IA. L'informatique en périphérie offre un traitement des données en temps réel, puisque l'inférence peut avoir lieu plus près de la source, ce qui minimise la distance que les données doivent parcourir, optimisant ainsi la bande passante et réduisant le temps de latence global.
Les hyperscalers emploient plusieurs stratégies innovantes pour garantir une consommation d'énergie efficace dans les centres de données d'IA :
- Énergies renouvelables : Les hyperscalers se tournent de plus en plus vers les sources d'énergie renouvelables, notamment le solaire et l'éolien. Ces sources durables réduisent l'empreinte carbone et garantissent un approvisionnement durable en énergie.
- Refroidissement : La gestion thermique est cruciale pour réduire la consommation d'énergie dans les centres de données d'IA. C'est pourquoi les hyperscalers investissent dans le refroidissement liquide et la gestion du refroidissement pilotée par l'IA pour garantir une utilisation efficace de l'énergie.
- L'infrastructure : L'agencement et la conception des centres de données d'IA jouent un rôle essentiel dans la consommation d'énergie et l'efficacité énergétique. Des stratégies telles que le confinement des allées chaudes et des allées froides, l'emplacement idéal des serveurs et la bonne circulation de l'air peuvent toutes améliorer l'efficacité énergétique.
Les centres de données d'IA exigent une approche de sécurité spécialisée pour se protéger contre certaines vulnérabilités. Par exemple, les grands modèles d'apprentissage sont particulièrement sensibles à l'injection rapide et aux attaques adverses, où des entrées malveillantes peuvent potentiellement tromper les modèles d'IA. C'est pourquoi les stratégies de sécurité telles que les tests continus (avec une application et un outil de test de sécurité), le contrôle d'accès (y compris l'authentification multifactorielle et le contrôle d'accès basé sur les rôles) et les audits de sécurité de routine sont essentiels.
Les centres de données d'IA sont spécialement conçus pour répondre aux exigences de l'apprentissage profond et de l'apprentissage automatique :
- Le matériel réseau haute performance, tel que les GPU, les TPU et les accélérateurs d'IA, gère les calculs complexes impliqués dans l'entraînement des modèles pour l'apprentissage automatique et l'apprentissage profond.
- Les interconnexions à large bande assurent des échanges de données efficaces et rapides entre les nœuds de stockage et de calcul.
- L'infrastructure évolutive répond aux demandes croissantes de puissance de calcul et de stockage, ce qui est essentiel pour les modèles d'IA complexes et les ensembles de données de plus en plus volumineux.
Un certain nombre d'hyperscalers et de fournisseurs d'IA construisent et entretiennent des centres de données d'IA dans le monde entier. Parmi les plus grands fournisseurs figurent Amazon Web Services, Google, OpenAI, Apple et Meta.
Vous avez besoin d'aide ou vous avez des questions ?