優化 AI 資料中心電源完整性與效率

在 AI 資料中心中,能源管理與效能同樣重要。然而,儘管高階伺服器和機架交換器採用一流的晶片和互連技術,串擾和電磁干擾仍可能導致電源管理問題,最終阻礙 AI 資料中心的擴展能力。如果沒有多功能設計自動化和量測工具,將極難模擬電源傳輸網路、找出電源問題的根本原因,並最終確保電源效率。 

防止電源完整性問題危及 AI 資料中心

簡化電源傳輸網路的分析,預測可靠性,並在設計早期最佳化散熱效能 — 簡化電源完整性工作流程。

以無與倫比的準確度分析雜訊、漣波和串擾。

透過多功能、精巧且高效能的測試與量測工具,識別並消除您最棘手電源完整性問題的根本原因。

透過降低功耗,擴展 AI 工作負載容量

透過改善網路設備與基礎設施的電源完整性、管理和傳輸,以優化 AI 資料中心的電源效率。

網路研討會:使用示波器驗證電源完整性

探索電源完整性測量的基本工作流程,同時了解半導體和交換式電源供應器的演進。了解您需要哪些測量探棒和示波器軟體,才能偵錯高電流、低電壓電源軌雜訊問題。

分散式網路圖示

常見問題:AI 資料中心電源

AI 資料中心的電力需求正呈指數級增長。根據 富國銀行 的數據,到 2030 年,AI 的電力使用量可能達到 652 太瓦時 (TWh),較 2024 年的水平增長 8,050%。這種激增是由運算密集型工作負載(例如模型訓練和推論)所驅動,這些工作負載在密集的 GPU 和 TPU 機架上運行。與傳統資料中心不同,AI 工作負載需要以高電流密度持續供電,這經常挑戰電源完整性和散熱設計的極限。

主要的耗電者包括:

  • 加速器,例如 GPU 和 TPU (用於訓練和推論)
  • 記憶體子系統 (例如,HBM / DDR 模組)
  • 用於高頻寬資料傳輸的網路設備
  • 用於散發密集 AI 工作負載所產生熱量的散熱系統

每個輸出的瓦特都必須穩定且無漣波,這就是為什麼像即時合規示波器搭配電源軌探棒以及三相軟體等工具被用於驗證各層級的電源完整性 — 從電路板級穩壓器到機架級配電。

AI 工作負載不僅運算量大,而且具有突發性、平行性,並產生大量熱能。訓練大型模型通常會導致峰值負載,對供電和散熱系統造成壓力。這需要對電壓裕度、電流尖峰和漣波進行即時監控和分析。Keysight 的 電源分析軟體傳導 EMI 工具SIPro 可協助工程師偵測電源異常,並改進電路板佈局,以確保在壓力下提供穩定的電源。這些努力對於最佳化營運、防止硬體故障以及減少 AI 訓練或即時推論週期中的能源低效率使用至關重要。

領先的資料中心部署硬體和軟體層級的策略,包括:

  • 使用 即時合規示波器EMI 探棒 進行電源完整性驗證
  • 搭配諸如三相軟體等工具進行相位平衡與諧波偵測
  • 搭配 EDA 工具 進行模擬與建模,以預先驗證電路板設計和電源傳輸路徑
  • 工作負載調校與排程,以消除推論或訓練週期中的功率尖峰

此外,Keysight 設計資料與 IP 資料管理平台讓團隊能夠分析、版本化並最佳化跨晶片和系統團隊的功耗資料。這些洞察力有助於設計迭代並符合能源效率目標。

擴展 AI 電源基礎設施的主要挑戰包括:

  • 高密度運算機架的熱負載
  • 由於更快的切換元件和更薄的裕度導致的電源完整性劣化
  • 來自 AI 模型且具有動態資源分配的不可預測需求高峰
  • 隨著需求超越傳統基礎設施,電網面臨限制

解決這些挑戰需要驗證(例如,漣波和傳導 EMI 分析)以及架構創新,例如分離式電源傳輸、具 AI 意識的熱控制,以及將即時電源遙測整合到操作儀表板中。

需要協助或有疑問嗎?