AI 資料中心
釋放下一代 AI 創新
釋放 AI 的潛力
AI 資料中心的可靠性取決於其最薄弱的環節。在性能的最前沿,每一個晶片、電纜、互連、交換器、伺服器和 GPU 都代表著潛力和風險。個別元件不僅必須獨立運作,還需要在嚴苛的需求下作為一個系統協同運作。
建立能夠處理 AI 工作負載需求的網路,意味著要驗證每個元件、連接和配置。在如此高的風險和規模下,即使是最小的效率提升、營運改進或性能增強,都能帶來顯著的回報 — 減少中斷並防止連鎖故障。
AI 資料中心:技術轉捩點
乙太網路
資料中心速度將從 400 / 800G 提升至高速 1.6 / 3.2T 乙太網路。
記憶體
DDR5 正逐漸被 DDR6 和 HBM3 取代 — 速度高達 12.8 GT/s。
光學
112 Gb/s 的傳輸速度將被 224 和 448 Gb/s 標準所取代。
PCIe® / CXL
PCIe® 7 將更新 PCIe® 5 和 PCIe® 6,傳輸速度將從 32 GT/s 提升至 128 GT/s。
測試 AI 資料中心:多層挑戰
在 AI 時代加速高速數位設計
AI 資料中心需要適用於 AI 的半導體、晶片組和高速數位 (HSD) 設計。但尖端性能伴隨著成本。速度和標準不斷演進,保持最新有時意味著要領先一到兩代思考。符合先進設計要求意味著超越除錯。滿足 — 甚至超越 — 最新的 PCIe®、DDR 和 CXL 標準需要先進的模擬工具,這些工具能夠分析設計並在問題發生前預測潛在問題。
重新構想適用於 1.6T 及更高頻寬的 AI 基礎設施
隨著 AI 資料中心採用 1.6T 乙太網路速度,網路設備製造商正在開發新的光收發器以支援這些需求。然而,高速連接也需要針對 AI 網路的實際需求進行高速驗證。擴展研發和生產測試意味著不僅要使用量測實體層的低雜訊儀器,還需要採用協定層乙太網路測試來驗證實際效能。
最佳化 AI 資料中心效能與效率
AI 網路不僅需要元件級驗證。實體層測試是不夠的。互通性、效能和效率只能在系統層級 — 於真實網路條件下 — 進行測量。驗證 AI 叢集元件、最佳化效率和擴展容量需要從全堆疊 AI 工作負載模擬中獲取進階洞察。追蹤諸如作業完成時間和集體通訊頻寬等指標有助於偵測瓶頸、最佳化 AI 工作負載分佈,並識別否則將會隱藏的元件級問題。
最大化電源效率以擴展 AI 工作負載
在 AI 資料中心中,能源管理與性能同樣重要。然而,儘管高階伺服器和機架交換器利用一流的晶片和互連技術,串擾和電磁干擾仍可能導致電源管理問題,最終阻礙 AI 資料中心的擴展能力。如果沒有多功能設計自動化和量測工具,將極難模擬電力傳輸網路、識別電源問題的根本原因,並最終確保電源效率。
提升您在 AI 資料中心的知識。
最佳化和擴展 AI 資料中心的 5 個策略
AI 正在改變各行各業並推動創新。然而,獨特的流量模式、動態工作負載和持續的效能壓力,即使是最小的問題也可能升級為關鍵問題。
閱讀此電子書,探索五種最佳化 AI 資料中心效能以適用於現代應用的實用解決方案。
AI 網路訓練營
歡迎與 Keysight 工程師一同深入探討 AI 網路測試與 AI 資料中心部署驗證的世界。完成本課程後,您將獲得掌握這個快速變革、創新的新網路典範所需的洞察力與信心。
提升 AI 資料中心叢集的擴充性
您的網路基礎設施能否擴充以處理複雜、高流量的 AI 訓練工作負載?本白皮書深入探討 AI 資料中心叢集擴充,找出關鍵網路挑戰,並說明如何為貴組織的 AI 願景確保可擴充且可靠的網路。
評測集體操作
量測或基準測試 AI 叢集中的網路性能,可協助組織找出最佳化和提升整體傳輸量的機會,而無需額外的硬體成本。本白皮書解釋了 AI 集群的運作方式、定義了相關術語,並回顧了與基準測試 AI 網路相關的最常見指標。
Keysight 如何協助強化 AI 資料中心
消除薄弱環節
透過實體層測試和系統級網路模擬,確保元件級效能。
最佳化每個層級
模擬資料中心設計、驗證 AI 規模的網路設備,並微調系統級性能。
擴充 AI 容量
透過真實世界的協定、應用和網路模擬,最大化資料中心效能。
探索我們最新的 AI 資料中心解決方案。
使用 KAI Data Center Builder 最佳化 AI 基礎設施
以無與倫比的精確度,評測 AI 資料中心效能。KAI 資料中心建構器可模擬用於建構大型學習模型 (LLM) 的集體通訊和演算法組合,讓您輕鬆透過全系統測試來驗證網路基礎架構和 AI 網路架構。
透過高速桌上型測試儀,最大化乙太網路可靠性。
測試最新一代 AI 最佳化網路和互連。Keysight 互連和網路效能測試儀 1.6T 具備完整的第 1-3 層測試覆蓋範圍,並支援每個埠高達 40W 的功率,為交換器製造商和超大規模業者提供領先的乙太網路測試功能。
使用 DCA-M 取樣示波器驗證 AI 互連
利用 224 Gb/s 取樣示波器,其提供無與倫比的光學精準度和收發器測試效率,最大化網路可靠性。搭配光學測試軟體,可簡化大批量光學收發器的製造測試,以測試支援 AI 的 800G / 1.6T 網路設備。
探索 AI 就緒測試設定
分析 PAM4 接收器信號
使用錯誤分析,深入瞭解 PAM4 接收器訊號。
分析 PCB 信號完整性
透過偵測與診斷串擾、抖動、垂直雜訊和相位雜訊,降低高速數位PCB中的訊號完整性風險。
執行 PCIe® 6.0 協定驗證。
在實體層、資料連結層和交易層實現協定驗證。
評估 FEC 效能
透過評估錯誤校正機制,測試高速乙太網路連結。
深入瞭解測試 AI 資料中心
常見問題:AI 資料中心
AI 資料中心是一種獨特的運算設施,專為支援人工智慧 (AI) 應用而建。AI 資料中心利用強大的工具,包括圖形處理單元 (GPU) 和張量處理單元 (TPU),使其能夠處理大量流量、訓練大型學習模型 (LLM) 和執行使用者查詢 — 這是一個通常稱為「推論」的術語。
全球各地正在興建 AI 資料中心以滿足日益增長的需求。然而,大多數 AI 資料中心位於美國,特別是在德州、加州和維吉尼亞州。
AI 就緒資料中心具有多項顯著特點:
- 硬體:加速 AI 運算的高效能 GPU 和 TPU。
- 儲存:高速、大容量儲存系統,用於管理 AI 訓練和推論所需的大量資料。
- 散熱:AI 基礎設施會產生大量熱能,因此支援 AI 的資料中心需要液體冷卻和精密冷卻等先進散熱技術,以防止過熱。
- 擴充:AI 資料中心必須根據 AI 任務的波動需求,有效率地擴充資源。
- 網路連接:高頻寬和低延遲連接對於即時資料處理和通訊至關重要。
- 安全:強固的安全措施和可靠的基礎設施可確保防護和可用性,以抵禦一系列針對 AI 的網路攻擊。
傳統資料中心處理廣泛的通用運算任務,而 AI 資料中心則針對處理大量資料、訓練大型學習模型以及針對使用者查詢進行推論進行最佳化。傳統資料中心使用 CPU 進行通用運算任務,並採用標準網路架構進行跨儲存、伺服器和雲端環境的資料傳輸 — 而 AI 資料中心則依賴 GPU、TPU 和高速/低延遲網路來處理處理器之間快速的資料移動。
AI 資料中心處理各種工作負載 — 每種工作負載對運算和儲存都有獨特的要求。一些最常見的工作負載類型包括:
- 資料處理工作負載
- Machine learning workloads
- 深度學習工作負載
- 自然語言處理 (NLP) 工作負載
- 生成式 AI 工作負載
- 電腦視覺工作負載
AI 資料中心採用多種策略來實現高效資料管理 — 包括 NVMe SSD 等高效能儲存系統(確保快速的資料存取與檢索)、根據使用模式在不同儲存層之間移動資料的資料分層,以及可節省儲存空間並提高效率的資料壓縮和重複資料刪除技術。
經 AI 最佳化的資料中心採用專用硬體來加速訓練和推論。以下是一些最常見的元件:
- 圖形處理器 (GPU):平行處理任務的必備設備 — AI 應用程式通常需要此類任務。
- 張量處理單元 (TPU):專為機器學習任務設計,為 AI 模型提供高效能的訓練和推論。
- 經 AI 最佳化的儲存:NVMe SSD 等高效能儲存解決方案,有助於管理大型資料集並實現高效檢索。
- 網路基礎設施:Infiniband、乙太網路和 NVIDIA Spectrum-X 提供高速通訊、減少瓶頸並提升傳輸量。
- 散熱系統:液體冷卻等先進散熱技術有助於管理整個網路設備和基礎設施的熱效率。
GPU 和 TPU 透過有效處理 AI 工作負載的密集運算需求,提升 AI 資料中心的效能。以下是它們提供的一些主要優勢:
- 縮短訓練時間:GPU和TPU縮短了AI模型訓練所需的時間,使AI應用程式的開發和部署更快速、更有效率。
- 能源效率:GPU 和 TPU 具備能源效率,可協助超大規模業者管理營運成本和環境影響。
- 強化功能:GPU和TPU協助AI資料中心支援更複雜和先進的AI模型,從而推動各行各業的創新。
AI 運算週期會產生大量熱能。這就是為什麼 AI 資料中心需要先進的散熱解決方案來管理和抵消熱能。以下是 AI 資料中心最常用的幾種散熱技術:
- 液體冷卻:液體冷卻劑直接循環至熱源,例如 GPU 和 TPU。
- 浸沒式冷卻:IT 元件浸沒在介電液體中,這種液體比空氣更有效地吸收熱量。
- 後門熱交換器:一種安裝在伺服器機架背面的散熱系統——利用液體冷卻直接從機架排氣中帶走熱量。
AI 資料中心通常採用多種策略來確保可擴展性:
- 模組化:AI 資料中心採用模組化元件,可隨著需求成長而擴充,實現漸進式擴展,而無需顯著停機。
- 散熱:高效率散熱對於 AI 資料中心維持效能和可靠性至關重要。液體冷卻和 AI 驅動的管理有助於最佳化能源使用並支援額外擴充。
- AI 管理:AI 可以幫助預測和管理工作負載、最佳化資源並提高資料中心效率。這種主動式方法有助於超大規模業者應對波動的需求並維持最佳效能。
邊緣運算可提升 AI 資料中心的效能、降低延遲並最佳化資源使用。邊緣運算提供即時資料處理,因為推論可在更靠近資料來源處進行,這最大限度地縮短了資料傳輸距離,進而最佳化頻寬並降低整體延遲。
超大規模業者採用多種創新策略,以確保 AI 資料中心的能源效率:
- 再生能源:超大規模業者正日益尋求再生能源,包括太陽能和風能。這些永續來源可減少碳足跡,並確保能源的永續供應。
- 散熱:熱管理對於降低 AI 資料中心的能源消耗至關重要。這就是為什麼超大規模業者正投資於液體冷卻和 AI 驅動的散熱管理,以確保能源使用效率。
- 基礎設施:AI 資料中心的佈局與設計在能源消耗和效率方面扮演著關鍵角色。熱通道與冷通道隔離、理想的伺服器佈置以及適當的氣流等策略,都能提升能源效率。
AI 資料中心需要專業的安全方法來防範某些漏洞。例如,大型學習模型特別容易受到提示注入和對抗性攻擊,惡意輸入可能會欺騙 AI 模型。這就是為什麼持續測試(使用應用程式和安全測試工具)、存取控制(包括多因素驗證和基於角色的存取控制)以及例行安全稽核等安全策略至關重要。
AI 資料中心專為支援深度學習和機器學習的嚴苛要求而建:
- 高效能網路硬體(例如 GPU、TPU 和 AI 加速器)可處理機器學習和深度學習模型訓練中涉及的複雜運算。
- 高頻寬互連技術確保儲存和運算節點之間高效能、高速的資料交換。
- 可擴充的基礎設施可滿足不斷成長的運算能力和儲存需求,這對於複雜的 AI 模型和日益龐大的資料集至關重要。
全球有許多超大規模業者和 AI 供應商正在建立和維護 AI 資料中心。其中一些最大的供應商包括 Amazon Web Services、Google、OpenAI、Apple 和 Meta。
需要協助或有疑問嗎?