優化人工智慧網路的效能與效率

加速人工智慧資料中心 驗證智慧網路卡效能,並對網路元件進行壓力測試。 運用真實流量模擬器 即時模擬器 多項業界標準人工智慧指標,例如任務完成時間與集體通訊頻寬。透過人工智慧優化網路測試工具(包含人工智慧工作負載模擬器、分散式網路流量產生器及網路流量模擬器),可基準化人工智慧網路效能、偵測瓶頸並優化人工智慧工作負載分配。

驗證高達1.6T速率的無損乙太網路

透過確保人工智慧/機器學習與高效能運算網路中的可靠資料傳輸,始終領先於日益加速的效能需求。

針對人工智慧工作負載模擬進行人工智慧網路設備壓力測試

透過高密度流量生成器模擬人工智慧工作負載行為,以優化效能與效率,從而減少對昂貴GPU實驗室設備的依賴。

觀察AI專用網路參數如何影響效能

從多種流量模型和工作負載配置檔中選擇,以簡化基準測試流程,並在元件和系統層級測試網路效能。

高階主管觀點:Keysight AI

聆聽是德科技網路應用與安全事業部副總裁暨總經理拉姆·佩里亞卡魯潘,探討人工智慧資料中心面臨的關鍵挑戰、如何優化人工智慧效能與效率,以及是德科技如何Keysight AI 就緒資料中心 提供協助。

常見問題:人工智慧網路

在傳統網路中,工作負載類型與規模各異,流量分散於不同連線,並隨使用者數量成比例增長;延遲或遺失的封包通常不會造成重大問題。而在人工智慧網路中,所有GPU皆處理相同任務——建構大型語言模型(LLM)。 建構LLM的工作負載需要在GPU之間共享海量數據,且必須避免封包遺失或遭遇壅塞。由於所有GPU處理相同任務,當最後一顆GPU完成處理時,整個任務才算完成。若任一GPU的數據傳輸發生延遲,將導致整個工作負載延誤。

優化人工智慧網路與優化資料中心 有所不同。人工智慧資料中心 需以接近滿載狀態運行,並保持零封包損耗以最大化GPU利用率。系統提供多種擁塞機制與相應設定選項。透過在實驗室環境中運用基準測試工具執行人工智慧工作負載,可找出最佳配置與設定方案,進而將其應用於生產環境。

在人工智慧網路中,各GPU處理同一問題——僅當最後一顆GPU接收所需資料並完成處理後,任務才算完成。人工智慧網路效能的關鍵指標之一是尾端延遲——即完成時間最長的流量。此指標稱為P95,代表最慢的百分之五網路流量所需的完成時間。

RDMA 是遠端直接記憶體存取(Remote Direct Memory Access)的縮寫。RDMA 技術使 GPU資料中心 相互傳輸資料中心 CPU 與網路堆疊的介入。此機制實現了資料中心低延遲、高吞吐量通訊。伺服器中的 RDMA 支援型網路介面卡連接至 RDMA 支援型交換器,從而實現 GPU 間的高速通訊。

超高速乙太網路(UE)為乙太網路增添新功能,旨在為人工智慧與高效能運算需求提供快速、高度可擴展且低延遲的網路環境。封包噴灑技術允許流量透過多條路徑抵達目的地,從而提升網路負載平衡效能。彈性排序機制則使封包得以無序抵達終端。 基於接收端的擁塞控制機制,在既有發送端擁塞控制基礎上強化了全對全等AI集體運算中產生的內部擁塞處理。改良的遙測技術可加速控制平面信令傳遞,提升對擁塞事件的反應效能。UE與現有資料中心 交換器具備互通性,但若搭配基於UEC的交換器與網路介面卡運作,將展現更高網路利用率與更低尾端延遲的優異效能。

在 GPU 之間傳輸資料的動作稱為集體運算。根據資料的初始與最終位置,以及過程中是否需要對資料執行數學運算,可分為數種類型。常見類型包括廣播與匯集、縮減散列、全匯集、全縮減,以及全對全。 操作名稱中若含「reduce」關鍵字,即表示該操作會對數據執行運算。集體操作可透過多種演算法實現,其中全縮減(AllReduce)的知名演算法包含單向與雙向環形、雙二叉樹、以及半減倍法。這些演算法的效能表現會因GPU數量及互連方式而異。

需要協助或有疑問嗎?