AI 網路
提升 AI 資料中心的效能。
最佳化 AI 網路效能與效率
加速 AI 資料中心部署,驗證 SmartNIC 效能,並對網路元件進行壓力測試。使用真實流量模擬器即時追蹤一系列業界標準 AI 指標,例如作業完成時間和集體通訊頻寬。使用 AI 最佳化網路測試工具(包括 AI 工作負載模擬器、分散式網路流量產生器和網路流量模擬器)來基準測試 AI 網路效能、偵測瓶頸並最佳化 AI 工作負載分佈。
關於 AI 網路,您需要知道的一切
Juniper 採用 Keysight 打造下一代 AI 網路
探索 Juniper Networks 如何與 Keysight 合作,為 AI 網路建構網路基礎設施。了解 Keysight 網路模擬工具如何協助 Juniper 針對 AI 資料中心的實際需求測試並驗證其產品。
最佳化和擴展 AI 資料中心的 5 個策略
AI 正在改變各行各業並推動創新。然而,獨特的流量模式、動態工作負載和持續的效能壓力,即使是最小的問題也可能升級為關鍵問題。
閱讀此電子書,探索五種最佳化 AI 資料中心效能以適用於現代應用的實用解決方案。
提升 AI 資料中心叢集的擴充性
您的網路基礎設施能否擴展以處理複雜、高流量的 AI 訓練工作負載?本白皮書深入探討 AI 資料中心叢集擴展,識別關鍵網路挑戰,並解釋如何為貴組織的 AI 發展願景確保可擴展且可靠的網路。
AI 網路訓練營
歡迎與 Keysight 工程師一同深入探討 AI 網路測試與 AI 資料中心部署驗證的世界。完成本課程後,您將獲得掌握這個快速變革、創新的新網路典範所需的洞察力與信心。
評測集體操作
量測或基準測試 AI 叢集中的網路效能,可協助組織找出最佳化和改善整體傳輸量的機會,而無需額外的硬體成本。本白皮書解釋了 AI 協作的運作方式、定義了術語,並回顧了與基準測試 AI 網路相關的最常見指標。
驗證速度高達 1.6T 的無損乙太網路
藉由確保 AI / ML 和高效能運算網路中的可靠資料傳輸,領先不斷加速的效能需求。
針對 AI 工作負載模擬,對 AI 網路設備進行壓力測試
透過高密度流量產生器模擬 AI 工作負載行為,以最佳化效能和效率,從而減少對昂貴的基於 GPU 的實驗室設置的需求。
了解 AI 專屬網路參數如何影響效能
從一系列流量模型和工作負載設定檔中進行選擇,以簡化基準測試並在元件和系統層級測試網路效能。
探索AI網路解決方案
使用 KAI Data Center Builder 最佳化 AI 基礎設施
以無與倫比的精確度,評測 AI 資料中心效能。KAI 資料中心建構器可模擬用於建構大型學習模型 (LLM) 的集體通訊和演算法組合,讓您輕鬆透過全系統測試來驗證網路基礎架構和 AI 網路架構。
最大化 1.6T 乙太網路的可靠性和效能
測試領先的乙太網路產品,適用於 AI 互連和資料中心網路。透過實體層 (L1) 和協定層 (L2-3) 測試支援,Keysight 互連和網路性能測試儀 1600GE 提供無與倫比的測試覆蓋範圍,適用於光纖和主動式纜線互連、網路交換器和 AI 網路。
透過 CyPerf 驗證 SmartNIC 和 LLM 基礎設施
針對高效能網路設備,採用運算密集型、AI 原生流量模擬和測試情境進行壓力測試。Keysight CyPerf 讓您能透過基準測試、真實流量模擬和大規模測試,輕鬆評估系統效能、擴充性和穩定性。
使用 BreakingPoint 保護大型語言模型 (LLM) 免受進階攻擊
保護大型語言模型免受影響 AI 網路最普遍的網路攻擊類型:提示注入攻擊。Keysight BreakingPoint 是一款先進的網路安全和應用程式測試工具,可驗證 AI 網路及其供電網路設備的安全性、穩定性和效能。
高階主管觀點:Keysight AI 解決方案
聆聽是德科技網路應用與安全業務副總裁暨總經理 Ram Periakaruppan,討論 AI 資料中心面臨的關鍵挑戰、如何最佳化 AI 效能與效率,以及 Keysight 如何透過其 AI 就緒資料中心解決方案的 Keysight AI 產品組合提供協助。
深入了解 AI 網路
常見問題:AI 網路
在傳統網路中,工作負載類型和大小各異,流量分佈在不同的連線中,並隨使用者數量按比例增長,延遲或丟失的封包通常不會造成重大問題。在 AI 網路中,GPU 都處理相同的問題,即建立大型語言模型 (LLM)。建立 LLM 的工作負載需要 GPU 之間共享大量資料,且不能丟失封包或遇到壅塞。因為所有 GPU 都處理相同的問題,所以當最後一個 GPU 完成處理時,它們才完成一項任務。任何將資料傳遞給一個 GPU 的延遲都意味著整個工作負載都會延遲。
最佳化 AI 網路與最佳化傳統資料中心網路不同。AI 網路以接近滿載的容量運行,需要無損才能最大限度地提高 GPU 利用率。不同的壅塞機制具有各種設定。在實驗室環境中使用基準測試工具運行 AI 工作負載,可為尋找最佳配置和設定提供途徑,然後將其應用於生產環境。
在 AI 網路中,GPU 處理相同的問題,只有當最後一個 GPU 接收到所需的資料並完成處理時,才能完成一項任務。AI 網路效能的關鍵量測之一是尾部延遲,即完成時間最長的流量。該量測稱為 P95,代表網路流量中最慢的百分之五的完成時間。
RDMA 是遠端直接記憶體存取 (Remote Direct Memory Access) 的縮寫。RDMA 允許 GPU 在 AI 資料中心彼此之間傳輸資料,且 CPU 和網路堆疊的參與度極低。這使得 AI 資料中心能夠實現低延遲和高傳輸量的通訊。伺服器中的 RDMA 啟用網路介面卡可連接至 RDMA 啟用交換器,以實現 GPU 之間的高速通訊。
超高速乙太網路(UE)為乙太網路增添新功能,旨在為人工智慧與高效能運算需求提供快速、高度可擴展且低延遲的網路環境。封包噴灑技術允許流量透過多條路徑抵達目的地,從而提升網路負載平衡效能。彈性排序機制則使封包得以無序抵達終端。 基於接收端的擁塞控制機制,在既有發送端擁塞控制基礎上強化了全對全等AI集體運算中產生的內部擁塞處理。改良的遙測技術可加速控制平面信令傳遞,提升對擁塞活動的反應效能。UE與現有資料中心 交換器具備互通性,但若搭配基於UEC的交換器與網路介面卡運作,將展現更高網路利用率與更低尾端延遲的優異效能。
GPU 之間資料的移動稱為集體操作 (Collective Operation)。根據資料的初始和最終位置,以及在過程中是否需要對資料執行數學運算,有幾種不同的類型。常用的類型包括廣播與收集 (Broadcast and Gather)、歸約分散 (ReduceScatter)、全收集 (AllGather)、全歸約 (AllReduce) 和全對全 (AlltoAll)。操作名稱中出現「reduce」關鍵字表示此操作會對資料執行計算。集體操作可以使用任意數量的演算法來實作。AllReduce 的知名演算法包括單向和雙向環 (Unidirectional and Bidirectional Ring)、雙二元樹 (Double Binary Tree) 和減半加倍 (Halving-Doubling)。每種演算法根據 GPU 的數量及其互連方式,表現出不同程度的效能。
需要協助或有疑問嗎?