如何測試 AI 資料中心網路

AI 資料中心測試平台
+ 800GE 流量模擬器

重現人工智慧工作負載的真實網路行為

對人工智慧/機器學習 (AI/ML) 叢集架構進行基準測試,通常需要投資配備 GPU 和遠端直接記憶體存取 (RDMA) 網路介面控制器 (NIC) 的運算系統,而這些系統的建置和操作成本高昂且耗時。為了全面最佳化 AI 網路,必須在實驗室中部署和操作這些系統,以進行兆位元級的驗證和實驗。對 AI 網路進行適當的基準測試和驗證,需要配置叢集組態、壅塞控制、工作負載演算法、工作資料大小、流量設定檔和 NIC 效能等參數。

產生實際、大規模的 AI 工作負載流量以進行網路基準測試,需要 RDMA / 融合乙太網路上的 RDMA (RoCEv2) 端點模擬器和具備預先封裝方法論的軟體,以支援集體通訊模式,包括全對全、全歸約、全收集等。該軟體提供針對 AI 網路的資料工作負載,可測量作業完成時間、演算法和匯流排頻寬等關鍵參數,並深入了解網路架構效能。

AI 資料中心網路測試解決方案

測試 AI 資料中心網路需要網路流量模擬器,以及支援 AI 工作負載的預封裝方法軟體。AI 資料中心網路測試解決方案包括 Keysight AresONE 800GE RoCEv2 端點模擬,搭配 Keysight AI Data Center Builder 軟體。此解決方案可重複建立因 AI 叢集中的集體通訊而產生不同資料大小的場景。AresONE 上的每個連接埠都模擬一個 GPU 和一個 RDMA NIC。流量包括模擬佇列對 (QP) 連線和流量、產生壅塞通知、執行基於資料中心量化壅塞通知 (DCQCN) 的動態速率控制,並提供彈性來測試傳輸量、緩衝區管理和等成本多路徑 (ECMP) 雜湊。透過此解決方案,工程師可以在實驗室或預備環境中設計改進、進行基準測試,並將結果應用於生產環境,而無需在實驗室中專用 AI 運算節點和 NIC。

觀看我們的 AI 資料中心測試解決方案示範

探索我們的網路測試解決方案產品。

相關應用案例

聯絡我們標誌

聯絡我們的專家。

需要協助尋找適合您的解決方案嗎?