AIデータセンター・ネットワークのテスト方法

AIデータセンター・テスト・プラットフォーム
+ 800GEトラフィック・エミュレーター

AIワークロードの現実的なネットワーク動作の再現

人工知能/機械学習(AI/ML)クラスタ・ファブリックを現実的なワークロードでベンチマークするには、通常、GPUとリモート・ダイレクト・メモリ・アクセス(RDMA)ネットワーク・インターフェイス・コントローラ(NIC)を備えたコンピューティング・システムに投資する必要があるが、これらのシステムの構築と運用にはコストと時間がかかる。AIネットワークを完全に最適化するためには、テラビットスケールの評価 ラボでの実験のためにこれらのシステムを導入し、運用することが必要です。 AIネットワークの適切なベンチマークとテストには、クラスタ構成、輻輳制御、ワークロードアルゴリズム、ジョブデータサイズ、トラフィックプロファイル、NIC性能などのパラメータを設定する必要がある。

ネットワーク・ベンチマークのために現実的で大規模なAIワークロード・トラフィックを生成するには、RDMA/RDMA over Converged Ethernet(RoCEv2)エンドポイント・エミュレータと、all-to-all、all-reduce、all-gatherなどの集団通信パターンをサポートするパッケージ化されたメソドロジを備えたソフトウェアが必要です。このソフトウェアは、ジョブの完了時間、アルゴリズムとバス帯域幅、ネットワーク・ファブリック・パフォーマンスに関する洞察などの主要パラメータを測定するAIネットワーク特有のデータ・ワークロードを提供します。

AresONEとKeysight AIデータセンター・ビルダー・ソフトウェア

AIデータセンター・ネットワーク・テストソリューション

AIデータセンターネットワークのテストには、ネットワークトラフィックエミュレータと、AIワークロードをサポートするメソドロジがパッケージ化されたソフトウェアが必要です。AIデータセンター・ネットワーク・テストソリューション 、Keysight AresONE 800GE RoCEv2エンドポイント・エミュレーションとKeysight AI Data Center Builderソフトウェアが含まれています。このソリューション 、AIクラスタ内の集団通信から生じる異なるデータサイズのシナリオを繰り返し作成することができます。AresONEの各ポートは、GPUとRDMA NICをエミュレートします。トラフィックには、キューペア(QP)接続とフローのエミュレート、輻輳通知の生成、DCQCN(Data Center Quantized Congestion Notification)ベースの動的レート制御の実行、スループット、バッファ管理、ECMP(Equal Cost Multi-Path)ハッシングのテストへの柔軟性が含まれます。このソリューション、エンジニアはラボやステージング環境で改善を設計し、ベンチマークを行い、ラボに専用のAIコンピュートノードやNICを設置することなく、結果を本番環境に適用することができます。

AIデータセンター・テストのデモを見るソリューション

ネットワーク・テスト・ソリューションの製品を探す

関連する使用例

お問い合わせロゴ

専門家へのお問い合わせ

自分に合ったソリューション 見つけるのにお困りですか?