最佳化 AI 網路效能與效率

加速 AI 資料中心部署,驗證 SmartNIC 效能,並對網路元件進行壓力測試。使用真實流量模擬器即時追蹤一系列業界標準 AI 指標,例如作業完成時間和集體通訊頻寬。使用 AI 最佳化網路測試工具(包括 AI 工作負載模擬器、分散式網路流量產生器和網路流量模擬器)來基準測試 AI 網路效能、偵測瓶頸並最佳化 AI 工作負載分佈。

驗證速度高達 1.6T 的無損乙太網路

藉由確保 AI / ML 和高效能運算網路中的可靠資料傳輸,領先不斷加速的效能需求。

針對 AI 工作負載模擬,對 AI 網路設備進行壓力測試

透過高密度流量產生器模擬 AI 工作負載行為,以最佳化效能和效率,從而減少對昂貴的基於 GPU 的實驗室設置的需求。

了解 AI 專屬網路參數如何影響效能

從一系列流量模型和工作負載設定檔中進行選擇,以簡化基準測試並在元件和系統層級測試網路效能。

高階主管觀點:Keysight AI 解決方案

聆聽是德科技網路應用與安全業務副總裁暨總經理 Ram Periakaruppan,討論 AI 資料中心面臨的關鍵挑戰、如何最佳化 AI 效能與效率,以及 Keysight 如何透過其 AI 就緒資料中心解決方案的 Keysight AI 產品組合提供協助。

常見問題:AI 網路

在傳統網路中,工作負載類型和大小各異,流量分佈在不同的連線中,並隨使用者數量按比例增長,延遲或丟失的封包通常不會造成重大問題。在 AI 網路中,GPU 都處理相同的問題,即建立大型語言模型 (LLM)。建立 LLM 的工作負載需要 GPU 之間共享大量資料,且不能丟失封包或遇到壅塞。因為所有 GPU 都處理相同的問題,所以當最後一個 GPU 完成處理時,它們才完成一項任務。任何將資料傳遞給一個 GPU 的延遲都意味著整個工作負載都會延遲。

最佳化 AI 網路與最佳化傳統資料中心網路不同。AI 網路以接近滿載的容量運行,需要無損才能最大限度地提高 GPU 利用率。不同的壅塞機制具有各種設定。在實驗室環境中使用基準測試工具運行 AI 工作負載,可為尋找最佳配置和設定提供途徑,然後將其應用於生產環境。

在 AI 網路中,GPU 處理相同的問題,只有當最後一個 GPU 接收到所需的資料並完成處理時,才能完成一項任務。AI 網路效能的關鍵量測之一是尾部延遲,即完成時間最長的流量。該量測稱為 P95,代表網路流量中最慢的百分之五的完成時間。

RDMA 是遠端直接記憶體存取 (Remote Direct Memory Access) 的縮寫。RDMA 允許 GPU 在 AI 資料中心彼此之間傳輸資料,且 CPU 和網路堆疊的參與度極低。這使得 AI 資料中心能夠實現低延遲和高傳輸量的通訊。伺服器中的 RDMA 啟用網路介面卡可連接至 RDMA 啟用交換器,以實現 GPU 之間的高速通訊。

超高速乙太網路(UE)為乙太網路增添新功能,旨在為人工智慧與高效能運算需求提供快速、高度可擴展且低延遲的網路環境。封包噴灑技術允許流量透過多條路徑抵達目的地,從而提升網路負載平衡效能。彈性排序機制則使封包得以無序抵達終端。 基於接收端的擁塞控制機制,在既有發送端擁塞控制基礎上強化了全對全等AI集體運算中產生的內部擁塞處理。改良的遙測技術可加速控制平面信令傳遞,提升對擁塞活動的反應效能。UE與現有資料中心 交換器具備互通性,但若搭配基於UEC的交換器與網路介面卡運作,將展現更高網路利用率與更低尾端延遲的優異效能。

GPU 之間資料的移動稱為集體操作 (Collective Operation)。根據資料的初始和最終位置,以及在過程中是否需要對資料執行數學運算,有幾種不同的類型。常用的類型包括廣播與收集 (Broadcast and Gather)、歸約分散 (ReduceScatter)、全收集 (AllGather)、全歸約 (AllReduce) 和全對全 (AlltoAll)。操作名稱中出現「reduce」關鍵字表示此操作會對資料執行計算。集體操作可以使用任意數量的演算法來實作。AllReduce 的知名演算法包括單向和雙向環 (Unidirectional and Bidirectional Ring)、雙二元樹 (Double Binary Tree) 和減半加倍 (Halving-Doubling)。每種演算法根據 GPU 的數量及其互連方式,表現出不同程度的效能。

需要協助或有疑問嗎?