Optimiser l'intégrité et l'efficacité de l'alimentation électrique des centres de données d'IA

Dans les centres de données d'IA, la gestion de l'énergie est tout aussi importante que les performances. Cependant, bien que les serveurs et les commutateurs de rack haut de gamme utilisent les meilleures puces et interconnexions, la diaphonie et les interférences électromagnétiques peuvent causer des problèmes de gestion de l'alimentation qui peuvent finalement entraver la capacité d'évolution d'un centre de données d'IA. Sans outils polyvalents d'automatisation de la conception et de mesure, il est extrêmement difficile de simuler les réseaux de distribution d'énergie, d'identifier les causes profondes des problèmes d'alimentation et, en fin de compte, de garantir l'efficacité énergétique. 

Empêcher les problèmes d'intégrité de l'alimentation de mettre en péril les centres de données d'IA

Simplifier l'analyse des réseaux de distribution d'énergie, prévoir la fiabilité et optimiser les performances thermiques dès le début de la conception, en rationalisant les flux de travail relatifs à l'intégrité de l'alimentation.

Analyse du bruit, de l'ondulation et de la diaphonie avec une précision inégalée

Identifiez et éliminez les causes profondes de vos problèmes d'intégrité de l'alimentation les plus difficiles grâce à des outils de test et de mesure polyvalents, compacts et très performants.

Augmenter la capacité des charges de travail d'IA en réduisant la consommation d'énergie

Optimiser l'efficacité énergétique des centres de données IA en améliorant l'intégrité, la gestion et la distribution de l'énergie à travers l'équipement et l'infrastructure du réseau.

Webinar : Valider l'intégrité de l'alimentation avec les oscilloscopes

Découvrez les flux de travail de base pour la mesure de l'intégrité de l'alimentation tout en apprenant l'évolution des semi-conducteurs et des alimentations à découpage. Découvrez les types de sondes de mesure et les logiciels d'oscilloscope dont vous avez besoin pour déboguer les problèmes de bruit des rails d'alimentation à courant élevé et à basse tension.

Icône de réseau distribué

Foire aux questions : Alimentation des centres de données d'IA

Les centres de données d'IA connaissent une croissance exponentielle de la demande d'énergie. Selon Wells Fargo, la consommation d'énergie pour l'IA pourrait atteindre 652 térawattheures (TWh) d'ici 2030, soit une augmentation de 8 050 % par rapport aux niveaux de 2024. Cette hausse est due à des charges de travail à forte intensité de calcul, telles que l'apprentissage et l'inférence de modèles, qui s'exécutent sur des racks denses de GPU et de TPU. Contrairement aux centres de données traditionnels, les charges de travail de l'IA nécessitent une alimentation continue à des densités de courant élevées, repoussant souvent les limites de l'intégrité de l'alimentation et de la conception thermique.

Les principaux consommateurs d'électricité sont les suivants

  • Accélérateurs tels que les GPU et les TPU (pour la formation et l'inférence)
  • Sous-systèmes de mémoire (par exemple, modules HBM / DDR)
  • Matériel de mise en réseau pour la circulation de données à grande largeur de bande
  • Systèmes de refroidissement pour dissiper la chaleur générée par les charges de travail denses de l'IA

Chaque watt fourni doit être stable et sans ondulation, c'est pourquoi des outils tels que les oscilloscopes de conformité en temps réel avec des sondes de rail d'alimentation et des logiciels triphasés sont utilisés pour valider l'intégrité de l'alimentation à tous les niveaux - des régulateurs de tension au niveau de la carte à la distribution à l'échelle du rack.

Les charges de travail de l'IA ne sont pas seulement lourdes en termes de calcul - elles sont aussi éclatées, parallèles et thermiquement intenses. La formation de grands modèles entraîne souvent des pics de charge qui sollicitent à la fois les systèmes d'alimentation et de refroidissement. Cela nécessite une surveillance et une analyse en temps réel des marges de tension, des pics de courant et de l'ondulation. Le logiciel d'analyse de puissance, les outils EMI et SIPro de Keysight aident les ingénieurs à détecter les anomalies de puissance et à affiner la disposition des cartes pour garantir une alimentation stable en cas de stress. Ces efforts sont essentiels pour optimiser les opérations, prévenir les défaillances matérielles et réduire l'utilisation inefficace de l'énergie pendant les cycles d'apprentissage de l'IA ou d'inférence en temps réel.

Les centres de données les plus performants déploient des stratégies à la fois matérielles et logicielles :

  • Validation de l'intégrité de l'alimentation à l'aide d'oscilloscopes de conformité en temps réel et de sondes EMI
  • Équilibrage des phases et détection des harmoniques à l'aide d'outils tels que le logiciel triphasé
  • Simulation et modélisation à l'aide d'outils EDA pour prévalider la conception des cartes et des circuits d'alimentation électrique
  • Réglage et programmation de la charge de travail afin d'atténuer les pics de puissance au cours des cycles d'inférence ou d'entraînement.

En outre, les plates-formes Keysight Design Data et IP Data Management permettent aux équipes d'analyser, de modifier et d'optimiser les données de puissance au sein des équipes chargées des puces et des systèmes. Ces informations soutiennent l'itération de la conception et la conformité avec les objectifs d'efficacité énergétique.

Les principaux défis liés à l'extension de l'infrastructure énergétique de l'IA sont les suivants :

  • Charge thermique des baies de calcul à haute densité
  • Dégradation de l'intégrité de l'alimentation due à des composants de commutation plus rapides et à des marges plus minces
  • Pics de demande imprévisibles à partir de modèles d'IA avec allocation dynamique des ressources
  • Contraintes liées au réseau, la demande dépassant l'infrastructure traditionnelle

Pour relever ces défis, il faut à la fois valider (par exemple, l'ondulation et l'analyse des interférences électromagnétiques) et innover en matière d'architecture, comme la fourniture d'énergie désagrégée, le contrôle thermique intelligent et l'intégration de la télémétrie de l'énergie en temps réel dans les tableaux de bord opérationnels.

Vous avez besoin d'aide ou vous avez des questions ?