AIデータセンターの電源完全性と効率を最適化

AIデータセンターでは、エネルギー管理はパフォーマンスと同じくらい重要です。しかし、ハイエンドサーバーやラックスイッチが最高級のチップとインターコネクトを利用している一方で、クロストークや電磁干渉は電力管理の問題を引き起こし、最終的にAIデータセンターのスケーリング能力を妨げる可能性があります。多機能な設計自動化ツールと測定ツールがなければ、電力供給ネットワークをシミュレートし、電力問題の根本原因を特定し、最終的に電力効率を確保することは非常に困難です。 

電源完全性の問題がAIデータセンターを危険にさらすのを防ぐ

パワーデリバリーネットワークの解析を簡素化し、信頼性を予測し、設計の初期段階で熱性能を最適化することで、パワーインテグリティのワークフローを効率化します。

比類のない精度でノイズ、リップル、クロストークを解析

多用途でコンパクト、高性能なテスト/測定ツールを使用して、最も困難なパワーインテグリティ問題の根本原因を特定し、排除します。

消費電力を削減してAIワークロード容量を拡張します。

ネットワーク機器およびインフラストラクチャ全体の電源完全性、管理、および供給を改善することにより、AIデータセンターの電力効率を最適化します。

ウェビナー:オシロスコープによるパワーインテグリティの検証

半導体とスイッチング電源の進化について学びながら、パワーインテグリティ測定の基本的なワークフローを発見してください。高電流、低電圧のパワー・レール・ノイズの問題をデバッグするために必要な測定プローブとオシロスコープ・ソフトウェアの種類を見つけてください。

分散ネットワークアイコン

よくある質問:AIデータセンターの電力

AIデータセンターでは、電力需要が指数関数的に増加しています。Wells Fargoによると、AIの電力使用量は2030年までに652テラワット時(TWh)に達する可能性があり、これは2024年レベルから8,050%の増加に相当します。この急増は、モデルトレーニングや推論など、GPUやTPUの密なラックで実行される計算負荷の高いワークロードによって引き起こされます。従来のデータセンターとは異なり、AIワークロードは高電流密度での継続的な電力供給を必要とし、多くの場合、パワーインテグリティと熱設計の限界を押し広げています。

主な電力消費源は次のとおりです。

  • GPUやTPUのようなアクセラレータ(トレーニングと推論用)
  • メモリサブシステム(例:HBM/DDRモジュール)
  • 高帯域幅データ転送用ネットワーク機器
  • 高密度AIワークロードによって発生する熱を放散するための冷却システム

供給されるすべてのワットは安定しており、リップルのないものでなければなりません。そのため、ボードレベルの電圧レギュレータからラック規模の配電まで、あらゆるレベルでパワーインテグリティを検証するために、リアルタイム・コンプライアンス・オシロスコープパワー・レール・プローブ3相ソフトウェアのようなツールが使用されます。

AIワークロードは、計算負荷が高いだけでなく、バースト的で並列処理が多く、熱的に集中します。大規模モデルのトレーニングでは、供給システムと冷却システムの両方に負荷をかけるピーク負荷が発生することがよくあります。このため、電圧マージン、電流スパイク、リップルのリアルタイム監視と分析が必要です。キーサイトのパワー解析ソフトウェア伝導EMIツール、およびSIProは、エンジニアが電力異常を検出し、ボードレイアウトを改善して、ストレス下での安定した電力を確保するのに役立ちます。これらの取り組みは、AIトレーニングまたはリアルタイム推論サイクル中の動作を最適化し、ハードウェア障害を防止し、非効率なエネルギー使用を削減するために不可欠です。

主要なデータセンターは、ハードウェアレベルとソフトウェアレベルの両方の戦略を展開しており、以下を含みます。

さらに、キーサイトのデザインデータおよびIPデータ管理プラットフォームは、チームがチップおよびシステムチーム全体で電力データを分析、バージョン管理、最適化することを可能にします。これらの洞察は、設計の反復とエネルギー効率目標の順守をサポートします。

AIパワーインフラストラクチャを拡張する上での主な課題は以下のとおりです。

  • 高密度コンピューティングラックからの熱負荷
  • 高速スイッチングコンポーネントとマージンの縮小によるパワーインテグリティの劣化。
  • 動的なリソース割り当てを伴うAIモデルからの予測不可能な需要の急増
  • 需要が従来のインフラを上回るにつれて生じるグリッドの制約

これらの課題に対処するには、検証(例:リップルおよび伝導EMI解析)と、分散型電力供給、AI対応熱制御、運用ダッシュボードへのリアルタイム電力テレメトリ統合などのアーキテクチャ革新の両方が必要です。

サポートが必要ですか、ご質問がありますか?