Libérer le potentiel de l'IA

La fiabilité d'un centre de données d'IA dépend de son maillon le plus faible. À la pointe de la performance, chaque puce, câble, interconnexion, commutateur, serveur et GPU représente à la fois un potentiel et un risque. Non seulement les composants individuels doivent fonctionner de manière indépendante, mais ils doivent également fonctionner de manière cohérente en tant que système soumis à une demande incessante.

Construire des réseaux capables de répondre aux exigences des charges de travail de l'IA signifie valider chaque composant, chaque connexion et chaque configuration. Avec des enjeux et une échelle aussi élevés, le moindre gain d'efficacité, la moindre amélioration opérationnelle ou la moindre amélioration des performances peut débloquer des retours significatifs - en réduisant les perturbations et en prévenant les défaillances en cascade.

Centres de données d'IA : Un point d'inflexion technique

Vitesses optiques des centres de données d'IA

Ethernet
Les vitesses des centres de données passeront de 400 / 800G à l'Ethernet à grande vitesse 1,6 / 3,2T.

Vitesse de la mémoire des centres de données d'IA

Mémoire
La DDR5 cède la place à la DDR6 et à la HBM3, avec des vitesses pouvant atteindre 12,8 GT/s.

Vitesses Ethernet des centres de données d'IA

Optique
Les vitesses de transfert de 112 Gb/s céderont la place aux normes de 224 et 448 Gb/s.

Icône de l'émetteur-récepteur AI

PCIe® / CXL
PCIe® 7 mettra à jour PCIe® 5 et PCIe® 6, les transferts passant de 32 à 128 GT/s.

Comment Keysight aide à améliorer les centres de données d'IA

Éliminer les maillons faibles

Garantir les performances des composants grâce à des tests de la couche physique et à des émulations de réseau au niveau du système.

Optimiser chaque couche

Modéliser les conceptions des centres de données, valider les équipements de réseau à l'échelle de l'IA et affiner les performances au niveau du système.

Augmenter la capacité de l'IA

Optimisez les performances de votre centre de données grâce à des émulations réelles de protocoles, d'applications et de réseaux.

Participez à notre événement AI Showcase

Apprenez à concevoir, valider et mettre à l'échelle les centres de données d'IA sans ressources GPU coûteuses. Découvrez de nouvelles façons de maximiser les performances avec des outils qui fonctionnent depuis la couche physique jusqu'à la couche applicative - tout en participant à des questions-réponses en direct avec les meilleurs ingénieurs de Keysight qui travaillent à la pointe de l'innovation en matière d'IA.

Icône de réseau distribué

En savoir plus sur les tests des centres de données d'IA

Foire aux questions : Centres de données sur l'IA

Un centre de données d'IA est un type unique d'installation informatique, conçu pour soutenir les applications d'intelligence artificielle (IA). Les centres de données d'IA utilisent des outils robustes, notamment des unités de traitement graphique (GPU) et des unités de traitement tensoriel (TPU), qui leur permettent de traiter de grands volumes de trafic, d'entraîner de grands modèles d'apprentissage (LLM) et d'exécuter des requêtes d'utilisateurs - un terme communément appelé "inférence".

Des centres de données d'IA sont construits dans le monde entier pour répondre à la demande croissante. Cependant, la majorité des centres de données d'IA sont situés aux États-Unis, plus précisément au Texas, en Californie et en Virginie.

Les centres de données prêts pour l'IA présentent plusieurs caractéristiques distinctives :

  • Matériel : GPU et TPU hautes performances qui accélèrent le calcul de l'IA.
  • Stockage : Systèmes de stockage à grande vitesse et à grande capacité qui gèrent les énormes quantités de données nécessaires à l'apprentissage et à l'inférence de l'IA.
  • Refroidissement : L'infrastructure de l'IA génère beaucoup de chaleur, c'est pourquoi les centres de données prêts pour l'IA ont besoin de technologies de refroidissement avancées comme le refroidissement liquide et le refroidissement de précision pour éviter la surchauffe.
  • Évolution : Les centres de données d'IA doivent faire évoluer les ressources efficacement en fonction des demandes fluctuantes des tâches d'IA.
  • Mise en réseau : les connexions à large bande et à faible latence sont essentielles pour le traitement des données et la communication en temps réel.
  • Sécurité : Des mesures de sécurité robustes et une infrastructure fiable garantissent la protection et la disponibilité contre toute une série de cyberattaques spécifiques à l'IA.

Alors que les centres de données traditionnels gèrent un large éventail de tâches informatiques générales, les centres de données d'IA sont optimisés pour le traitement de grands volumes de données, l'entraînement de modèles d'apprentissage à grande échelle et l'inférence par rapport aux requêtes des utilisateurs. Les centres de données traditionnels utilisent des CPU pour les tâches informatiques générales et des architectures de réseau standard pour les transferts de données entre les environnements de stockage, les serveurs et les nuages, tandis que les centres de données d'IA s'appuient sur des GPU, des TPU et des réseaux à grande vitesse et à faible latence pour gérer le mouvement rapide des données entre les processeurs.

Les centres de données d'IA gèrent une grande variété de charges de travail, chacune ayant des exigences uniques en matière de calcul et de stockage. Voici quelques-uns des types de charges de travail les plus courants :

  • Charges de travail liées au traitement des données
  • Charges de travail liées à l'apprentissage automatique
  • Charges de travail pour l'apprentissage en profondeur
  • Charges de travail liées au traitement du langage naturel (NLP)
  • Charges de travail d'IA générative
  • Charges de travail liées à la vision par ordinateur

Les centres de données d'IA utilisent plusieurs stratégies pour une gestion efficace des données - notamment des systèmes de stockage haute performance comme les disques SSD NVMe (pour garantir un accès et une récupération rapides des données), la hiérarchisation des données qui déplace les données entre différents niveaux de stockage (en fonction des modèles d'utilisation), et des techniques de compression et de déduplication des données qui économisent l'espace de stockage et améliorent l'efficacité.

Les centres de données optimisés pour l'IA utilisent du matériel spécialisé pour accélérer la formation et l'inférence. Voici quelques-uns des composants les plus courants :

  • Les processeurs graphiques (GPU) : Essential pour les tâches de traitement parallèle, qui sont couramment requises dans les applications d'IA.
  • Unités de traitement tensoriel (TPU) : Conçues pour les tâches d'apprentissage automatique, elles offrent des performances élevées en matière d'entraînement et d'inférence pour les modèles d'IA.
  • Stockage optimisé pour l'IA : Les solutions de stockage hautes performances telles que les disques SSD NVMe permettent de gérer des ensembles de données volumineux avec une récupération efficace.
  • Infrastructure de réseau : Infiniband, Ethernet et NVIDIA Spectrum-X assurent des communications à grande vitesse, réduisent les goulets d'étranglement et améliorent le débit.
  • Systèmes de refroidissement : les technologies Advanced , telles que le refroidissement par liquide, contribuent à optimiser l'efficacité thermique de l'ensemble des équipements et de l'infrastructure réseau.

Les GPU et TPU accélèrent les performances des centres de données d'IA en traitant efficacement les demandes de calcul intensif des charges de travail d'IA. Voici quelques avantages clés qu'ils offrent :

  • Temps de formation réduit : Les GPU et TPU réduisent le temps d'apprentissage des modèles d'IA, ce qui facilite le développement et le déploiement d'applications d'IA avec rapidité et efficacité.
  • Efficacité énergétique : Les GPU et TPU sont économes en énergie, ce qui aide les grandes entreprises à gérer leurs coûts opérationnels et leur impact sur l'environnement.
  • Des capacités accrues : Les GPU et les TPU aident les centres de données d'IA à prendre en charge des modèles d'IA plus complexes et plus avancés, ce qui favorise l'innovation dans divers secteurs.

Les cycles de calcul de l'IA génèrent d'énormes quantités de chaleur. C'est pourquoi les centres de données d'IA ont besoin de solutions de refroidissement avancées pour gérer et compenser la chaleur. Voici quelques-unes des techniques les plus courantes utilisées par les centres de données d'IA pour le refroidissement :

  • Refroidissement par liquide : Le liquide de refroidissement circule directement dans les sources de chaleur, telles que les GPU et les TPU.
  • Refroidissement par immersion : Les composants informatiques sont immergés dans un fluide diélectrique qui absorbe la chaleur plus efficacement que l'air.
  • Échangeurs de chaleur à l'arrière : Systèmes de refroidissement qui se fixent à l'arrière des baies de serveurs - utilisant le refroidissement par liquide pour éliminer la chaleur directement à partir de l'air d'échappement de la baie.

Les centres de données d'IA emploient généralement plusieurs stratégies pour garantir l'évolutivité :

  • Modularité : Les centres de données d'IA utilisent des composants modulaires qui peuvent être étendus au fur et à mesure que la demande augmente, ce qui permet une mise à l'échelle progressive sans temps d'arrêt important.
  • Refroidissement : Un refroidissement efficace est essentiel pour les centres de données d'IA afin de maintenir les performances et la fiabilité. Le refroidissement liquide et la gestion pilotée par l'IA peuvent contribuer à optimiser la consommation d'énergie et à prendre en charge une mise à l'échelle supplémentaire.
  • Gestion de l'IA : L'IA peut aider à prévoir et à gérer les charges de travail, à optimiser les ressources et à améliorer l'efficacité du centre de données. Cette approche proactive aide les hyperscalers à s'adapter aux fluctuations de la demande et à maintenir des performances optimales.

L'informatique en périphérie peut améliorer les performances, réduire la latence et optimiser l'utilisation des ressources dans les centres de données d'IA. L'informatique en périphérie offre un traitement des données en temps réel, puisque l'inférence peut avoir lieu plus près de la source, ce qui minimise la distance que les données doivent parcourir, optimisant ainsi la bande passante et réduisant le temps de latence global.

Les hyperscalers emploient plusieurs stratégies innovantes pour garantir une consommation d'énergie efficace dans les centres de données d'IA :

  • Énergies renouvelables : Les hyperscalers se tournent de plus en plus vers les sources d'énergie renouvelables, notamment le solaire et l'éolien. Ces sources durables réduisent l'empreinte carbone et garantissent un approvisionnement durable en énergie.
  • Refroidissement : La gestion thermique est cruciale pour réduire la consommation d'énergie dans les centres de données d'IA. C'est pourquoi les hyperscalers investissent dans le refroidissement liquide et la gestion du refroidissement pilotée par l'IA pour garantir une utilisation efficace de l'énergie.
  • L'infrastructure : L'agencement et la conception des centres de données d'IA jouent un rôle essentiel dans la consommation d'énergie et l'efficacité énergétique. Des stratégies telles que le confinement des allées chaudes et des allées froides, l'emplacement idéal des serveurs et la bonne circulation de l'air peuvent toutes améliorer l'efficacité énergétique.

Les centres de données d'IA exigent une approche de sécurité spécialisée pour se protéger contre certaines vulnérabilités. Par exemple, les grands modèles d'apprentissage sont particulièrement sensibles à l'injection rapide et aux attaques adverses, où des entrées malveillantes peuvent potentiellement tromper les modèles d'IA. C'est pourquoi les stratégies de sécurité telles que les tests continus (avec une application et un outil de test de sécurité), le contrôle d'accès (y compris l'authentification multifactorielle et le contrôle d'accès basé sur les rôles) et les audits de sécurité de routine sont essentiels.

Les centres de données d'IA sont spécialement conçus pour répondre aux exigences de l'apprentissage profond et de l'apprentissage automatique :

  • Le matériel réseau haute performance, tel que les GPU, les TPU et les accélérateurs d'IA, gère les calculs complexes impliqués dans l'entraînement des modèles pour l'apprentissage automatique et l'apprentissage profond.
  • Les interconnexions à large bande assurent des échanges de données efficaces et rapides entre les nœuds de stockage et de calcul.
  • L'infrastructure évolutive répond aux demandes croissantes de puissance de calcul et de stockage, ce qui est essentiel pour les modèles d'IA complexes et les ensembles de données de plus en plus volumineux.

Un certain nombre d'hyperscalers et de fournisseurs d'IA construisent et entretiennent des centres de données d'IA dans le monde entier. Parmi les plus grands fournisseurs figurent Amazon Web Services, Google, OpenAI, Apple et Meta.

Vous avez besoin d'aide ou vous avez des questions ?