Keysight AI 資料中心建構工具

KAI 資料中心建構工具

加速 AI 網路基礎設施的設計與部署

已擁有此產品? 前往技術支持頁面

亮點

Keysight AI 資料中心建構工具可以:

  • 無需大型 GPU 叢集即可模擬 AI 工作負載,透過利用高密度流量負載設備或軟體端點,有效降低測試和驗證成本。
  • 查看 KAI 工作負載資料庫,這是一套與領先 AI 業者與學術機構合作建立的完整 AI 工作負載執行追蹤資料。
  • 利用高密度 AI 主機模擬,支持 800GE / 400GE 功能,準確反映 AI 集群行為。
  • 透過 KAI Collective Benchmarks 應用程式優化基準測試,驗證 AI 網路架構效能,進而提升使用效率。
  • 自動化 AI 網路架構測試,以評估網路對任務完成時間、效能隔離、負載平衡和擁塞控制的影響,從而優化 AI 訓練效能。

引領 AI 網路未來:是德科技如何賦能 Juniper 推動 AI

 

 

  • 是德科技透過模擬來自大規模 AI 加速器的集體通訊工作負載,協助 Juniper 驗證下一代網路架構。
  • 提供全面的測試場景,展示無損網路架構在負載平衡和擁塞緩解方面的效率和效能。

解決 AI 網路挑戰

解決 AI 網路挑戰

AI / ML 產業的關鍵產業趨勢和挑戰包括:

  • 預計到 2026 年,AI 叢集的節點數將突破 10 萬個。
  • 在資料交換等待期間,閒置時間可高達 50%。
  • AI 網路創新需要新的測量和基準工具。
  • ​是德科技提供了一個具有無損結構驗證記錄的 800GE / 400GE測試解決方案。與基於 GPU 的系統基準測試相比,它能更快速部署,並提供更深入的洞察,同時實現可驗證的 AI 流量模擬準確性。

加速 AI 網路設計

定義 AI / ML 基礎設施的未來。 解鎖可能,塑造未來格局。

基準測試 AI 集合通訊的作業完成時間

駕馭 AI 工作負載的複雜性。

實現網路性能測量的精確性

根據更深入的 AI 通訊洞察做出設計決策。

靈活的假設場景

透過測試 AI 流量模式優化叢集配置,從而提升 AI 集體效能。

​高性價比的高密度 AI 網路測試平台

使用  AresONE-M 800GE 和 AresONE-S 400GE 的 AI 流量模擬擴展實驗規模。

加速 AI 網路設計

將真實的 AI 工作負載帶入實驗室

KAI 工作負載模擬使 AI 基礎設施團隊無需部署大型 GPU 叢集即可重現真實的 AI 訓練行為,在保持真實性的同時降低成本。

工作負載模擬的主要優勢

  • 使用 400GE / 800G AresONE 流量產生器或商用現成伺服器 (COTS) 模擬 AI 工作負載。
  • 在真實環境下驗證並行策略、模型切分和資料交換模式。
  • 在全面部署前,確保基礎設施與 AI 工作負載需求保持一致。
  • 降低對高成本 AI 叢集在基準測試與效能測試上的依賴。

重新定義 AI 基礎設施的基準測試方式

Workload Emulation
Keysight 透過精確和快速的方式幫助改變 AI 基礎設施基準測試:
  • 透過模擬大規模 AI 工作負載,優化 AI / ML 系統設計。
  • 深入洞察性能瓶頸,提升 AI 集體通訊效率。
  • 透過以應用程序交付的預打包方法,簡化基準測試和驗證流程。
  • 運用具備數百個 400GE / 800GE 埠的高密度 AresONE 負載設備,模擬 RoCEv2 架構下的 RDMA 通訊端點,實現高真實度的網路行為測試。

透過集體基準測試簡化 AI 基礎架構驗證

Keysight 透過提供精確、可擴展性,以及有助於優化設計與部署的深度洞察,加速 AI 基礎設施的驗證流程。KAI 資料中心建構工具透過KAI集合基準測試應用程序結合預打包測試方法和高保真儀器,簡化了性能評估,使AI運營商能夠優化基礎架構設計和網路性能。

KAI 數據中心建構工具結合 KAI Collective Benchmarks 應用程式、測試方法包與高保真測試儀器,簡化效能評估流程,協助 AI 營運人員優化基礎設施設計與網路效能。

主要功能包括:

  • 透過測量任務完成時間、演算法和匯流排頻寬,以及與理論最大性能的偏差,評估集體通訊效率。 
  • 使用 AresONE 流量負載設備模擬 RoCEv2 端點,透過深入分析功能評估佇列對(AI 資料流)的效能表現。
  • 透過將AresONE硬體測試結果與真實 AI 系統的指標進行比對,來驗證 RoCEv2 模擬的真實性。
  • 透過集成 AI 集合基準測試,KAI 資料中心建構工具協助AI 營運商和基礎架構供應商深入瞭解資料傳輸效率、網路壅塞狀況與整體系統效能。
集合基準測試

RoCEv2 端點模擬和狀態驗證

超越模擬,精準定義 RoCEv2 驗證新標準

IxNetwork 與 AresONE-S 全面支援 RoCEv2 協定

IxNetwork / AresONE-S 支援 RoCEv2 傳輸協定,並具備資料中心量化壅塞通知(DCQCN)壅塞控制與優先級流量控制(PFC)功能。它為驗證 AI 叢集中的資料平面流量管理提供了可擴展且高性價比的解決方案,優化網路架構效能。

速度與規模

AresONE-S 每台設備可提供高達 16 個 400GE 埠,並可組合為多設備配置,在單一集體中實現超過 256 個埠的擴充能力。每個埠可模擬一個  RoCEv2 端點,並支援數千個佇列對(Queue Pair),實現線速流量傳輸。這種規模對於重現真實 AI 叢集的網路拓撲至關重要。

流量靈活性

為了貼近 AI 工作負載模式的真實性,並在較小規模配置中重現潛在問題,AresONE 支援多種流量模式的 RoCEv2 功能,涵蓋匯聚 (in-cast)、部分網狀 (partial mesh) 以及全面 all-to-all 集體通訊。 在傳輸層,它支援可配置資料大小、突發速率和間隔的 RDMA 動作序列,並結合了 DCQCN 和 PFC 的速率控制機制。

佇列對 (Queue Pair) 級別的 DCQCN 流控制機制

每個佇列對的 DCQCN 支援精準的網路壅塞控制,結合顯式壅塞通知(ECN)與速率控制等功能,優化資料流與網路架構的回應能力。

訪問  GitHub 專案庫 以獲取 AI / ML 測試方法。

如何測試  AI 資料中心 網路

高效的網路設計對於加速資料傳輸和降低延遲至關重要。 AI Fabric 測試方法旨在提供一致的測試流程和可量化的指標,以優化資料中心基礎設施對 AI 工作負載的支援。 遵循此測試方法,對任務完成時間、效能隔離、負載平衡與壅塞控制進行基準測試。

使用真實工作負載對 AI / ML 叢集進行基準測試,通常需在配備 GPU 與 RDMA 網路介面卡(NIC)的運算系統上投入高額成本。正確的基準測試需要配置參數,例如叢集架構、壅塞控制、工作負載演算法、任務資料大小、流量特性及網卡效能等參數。

AI 測試硬體

Keysight 的資料中心負載模組提供高密度和高性能的乙太網 IP 測試解決方案,支援業界首款涵蓋 1G、10G、25G、40G、50G、100G、400G 與 800G 速率的產品。

推薦資源

需要幫助或有疑問嗎?