釋放 AI 的潛力

AI 資料中心的可靠性取決於其最薄弱的環節。在性能的最前沿,每一個晶片、電纜、互連、交換器、伺服器和 GPU 都代表著潛力和風險。個別元件不僅必須獨立運作,還需要在嚴苛的需求下作為一個系統協同運作。

建立能夠處理 AI 工作負載需求的網路,意味著要驗證每個元件、連接和配置。在如此高的風險和規模下,即使是最小的效率提升、營運改進或性能增強,都能帶來顯著的回報 — 減少中斷並防止連鎖故障。

AI 資料中心:技術轉捩點

AI 資料中心光學速度

乙太網路
資料中心速度將從 400 / 800G 提升至高速 1.6 / 3.2T 乙太網路。

AI 資料中心記憶體速度

記憶體
DDR5 正逐漸被 DDR6 和 HBM3 取代 — 速度高達 12.8 GT/s。

AI 資料中心乙太網路速度

光學
112 Gb/s 的傳輸速度將被 224 和 448 Gb/s 標準所取代。

AI 收發器圖示

PCIe® / CXL
PCIe® 7 將更新 PCIe® 5 和 PCIe® 6,傳輸速度將從 32 GT/s 提升至 128 GT/s。

Keysight 如何協助強化 AI 資料中心

消除薄弱環節

透過實體層測試和系統級網路模擬,確保元件級效能。

最佳化每個層級

模擬資料中心設計、驗證 AI 規模的網路設備,並微調系統級性能。

擴充 AI 容量

透過真實世界的協定、應用和網路模擬,最大化資料中心效能。

參加我們的 AI 展示活動

了解如何在無需昂貴 GPU 資源的情況下設計、驗證和擴展 AI 資料中心。探索透過從實體層到應用層的工具來最大化性能的新方法,同時與 Keysight 頂尖工程師進行即時問答,這些工程師正處於 AI 創新的最前線。

亞洲

5 月 14 日
立即註冊 >

分散式網路圖示

常見問題:AI 資料中心

AI 資料中心是一種獨特的運算設施,專為支援人工智慧 (AI) 應用而建。AI 資料中心利用強大的工具,包括圖形處理單元 (GPU) 和張量處理單元 (TPU),使其能夠處理大量流量、訓練大型學習模型 (LLM) 和執行使用者查詢 — 這是一個通常稱為「推論」的術語。

全球各地正在興建 AI 資料中心以滿足日益增長的需求。然而,大多數 AI 資料中心位於美國,特別是在德州、加州和維吉尼亞州。

AI 就緒資料中心具有多項顯著特點:

  • 硬體:加速 AI 運算的高效能 GPU 和 TPU。
  • 儲存:高速、大容量儲存系統,用於管理 AI 訓練和推論所需的大量資料。
  • 散熱:AI 基礎設施會產生大量熱能,因此支援 AI 的資料中心需要液體冷卻和精密冷卻等先進散熱技術,以防止過熱。
  • 擴充:AI 資料中心必須根據 AI 任務的波動需求,有效率地擴充資源。
  • 網路連接:高頻寬和低延遲連接對於即時資料處理和通訊至關重要。
  • 安全:強固的安全措施和可靠的基礎設施可確保防護和可用性,以抵禦一系列針對 AI 的網路攻擊。

傳統資料中心處理廣泛的通用運算任務,而 AI 資料中心則針對處理大量資料、訓練大型學習模型以及針對使用者查詢進行推論進行最佳化。傳統資料中心使用 CPU 進行通用運算任務,並採用標準網路架構進行跨儲存、伺服器和雲端環境的資料傳輸 — 而 AI 資料中心則依賴 GPU、TPU 和高速/低延遲網路來處理處理器之間快速的資料移動。

AI 資料中心處理各種工作負載 — 每種工作負載對運算和儲存都有獨特的要求。一些最常見的工作負載類型包括:

  • 資料處理工作負載
  • Machine learning workloads
  • 深度學習工作負載
  • 自然語言處理 (NLP) 工作負載
  • 生成式 AI 工作負載
  • 電腦視覺工作負載

AI 資料中心採用多種策略來實現高效資料管理 — 包括 NVMe SSD 等高效能儲存系統(確保快速的資料存取與檢索)、根據使用模式在不同儲存層之間移動資料的資料分層,以及可節省儲存空間並提高效率的資料壓縮和重複資料刪除技術。

經 AI 最佳化的資料中心採用專用硬體來加速訓練和推論。以下是一些最常見的元件:

  • 圖形處理器 (GPU):平行處理任務的必備設備 — AI 應用程式通常需要此類任務。
  • 張量處理單元 (TPU):專為機器學習任務設計,為 AI 模型提供高效能的訓練和推論。
  • 經 AI 最佳化的儲存:NVMe SSD 等高效能儲存解決方案,有助於管理大型資料集並實現高效檢索。
  • 網路基礎設施:Infiniband、乙太網路和 NVIDIA Spectrum-X 提供高速通訊、減少瓶頸並提升傳輸量。
  • 散熱系統:液體冷卻等先進散熱技術有助於管理整個網路設備和基礎設施的熱效率。

GPU 和 TPU 透過有效處理 AI 工作負載的密集運算需求,提升 AI 資料中心的效能。以下是它們提供的一些主要優勢:

  • 縮短訓練時間:GPU和TPU縮短了AI模型訓練所需的時間,使AI應用程式的開發和部署更快速、更有效率。
  • 能源效率:GPU 和 TPU 具備能源效率,可協助超大規模業者管理營運成本和環境影響。
  • 強化功能:GPU和TPU協助AI資料中心支援更複雜和先進的AI模型,從而推動各行各業的創新。

AI 運算週期會產生大量熱能。這就是為什麼 AI 資料中心需要先進的散熱解決方案來管理和抵消熱能。以下是 AI 資料中心最常用的幾種散熱技術:

  • 液體冷卻:液體冷卻劑直接循環至熱源,例如 GPU 和 TPU。
  • 浸沒式冷卻:IT 元件浸沒在介電液體中,這種液體比空氣更有效地吸收熱量。
  • 後門熱交換器:一種安裝在伺服器機架背面的散熱系統——利用液體冷卻直接從機架排氣中帶走熱量。

AI 資料中心通常採用多種策略來確保可擴展性:

  • 模組化:AI 資料中心採用模組化元件,可隨著需求成長而擴充,實現漸進式擴展,而無需顯著停機。
  • 散熱:高效率散熱對於 AI 資料中心維持效能和可靠性至關重要。液體冷卻和 AI 驅動的管理有助於最佳化能源使用並支援額外擴充。
  • AI 管理:AI 可以幫助預測和管理工作負載、最佳化資源並提高資料中心效率。這種主動式方法有助於超大規模業者應對波動的需求並維持最佳效能。

邊緣運算可提升 AI 資料中心的效能、降低延遲並最佳化資源使用。邊緣運算提供即時資料處理,因為推論可在更靠近資料來源處進行,這最大限度地縮短了資料傳輸距離,進而最佳化頻寬並降低整體延遲。

超大規模業者採用多種創新策略,以確保 AI 資料中心的能源效率:

  • 再生能源:超大規模業者正日益尋求再生能源,包括太陽能和風能。這些永續來源可減少碳足跡,並確保能源的永續供應。
  • 散熱:熱管理對於降低 AI 資料中心的能源消耗至關重要。這就是為什麼超大規模業者正投資於液體冷卻和 AI 驅動的散熱管理,以確保能源使用效率。
  • 基礎設施:AI 資料中心的佈局與設計在能源消耗和效率方面扮演著關鍵角色。熱通道與冷通道隔離、理想的伺服器佈置以及適當的氣流等策略,都能提升能源效率。

AI 資料中心需要專業的安全方法來防範某些漏洞。例如,大型學習模型特別容易受到提示注入和對抗性攻擊,惡意輸入可能會欺騙 AI 模型。這就是為什麼持續測試(使用應用程式和安全測試工具)、存取控制(包括多因素驗證和基於角色的存取控制)以及例行安全稽核等安全策略至關重要。

AI 資料中心專為支援深度學習和機器學習的嚴苛要求而建:

  • 高效能網路硬體(例如 GPU、TPU 和 AI 加速器)可處理機器學習和深度學習模型訓練中涉及的複雜運算。
  • 高頻寬互連技術確保儲存和運算節點之間高效能、高速的資料交換。
  • 可擴充的基礎設施可滿足不斷成長的運算能力和儲存需求,這對於複雜的 AI 模型和日益龐大的資料集至關重要。

全球有許多超大規模業者和 AI 供應商正在建立和維護 AI 資料中心。其中一些最大的供應商包括 Amazon Web Services、Google、OpenAI、Apple 和 Meta。

需要協助或有疑問嗎?