AIデータセンターネットワークのテスト方法

AIデータセンター試験プラットフォーム
+ 800GEトラフィックエミュレーター

AIワークロードの現実的なネットワーク動作の再現

人工知能/機械学習(AI/ML)クラスタ・ファブリックを現実的なワークロードでベンチマークするには、通常、GPUとリモート・ダイレクト・メモリ・アクセス(RDMA)ネットワーク・インターフェイス・コントローラ(NIC)を備えたコンピューティング・システムに投資する必要がありますが、これらのシステムの構築と運用にはコストと時間がかかります。AIネットワークを完全に最適化するためには、テラビットスケールの評価 ラボでの実験のためにこれらのシステムを導入し、運用することが必要です。 AIネットワークの適切なベンチマークとテストには、クラスタ構成、輻輳制御、ワークロードアルゴリズム、ジョブデータサイズ、トラフィックプロファイル、NIC性能などのパラメータを設定する必要があります。

ネットワークベンチマーク用の現実的で大規模なAIワークロードトラフィックを生成するには、オールツーオール、オールリデュース、オールギャザーなどの集合通信パターンをサポートするパッケージ化された手法を備えたRDMA / RoCEv2 (RDMA over Converged Ethernet) エンドポイントエミュレータとソフトウェアが必要です。このソフトウェアは、ジョブ完了時間、アルゴリズムおよびバス帯域幅などの主要なパラメータを測定し、ネットワークファブリックの性能に関する洞察を提供する、AIネットワークに特化したデータワークロードを提供します。

ソリューションデータセンターネットワークテストソリューション

AIデータセンターネットワークのテストには、ネットワークトラフィックエミュレータと、AIワークロードをサポートする事前パッケージ化された手法を備えたソフトウェアが必要です。AIデータセンターネットワークテストソリューションには、キーサイトのAresONE 800GE RoCEv2エンドポイントエミュレーションとキーサイトのAI Data Center Builderソフトウェアが含まれています。このソリューションは、AIクラスタにおける集合通信から生じる異なるデータサイズのシナリオを繰り返し作成できます。AresONEの各ポートは、GPUとRDMA NICをエミュレートします。トラフィックには、キューペア(QP)接続とフローのエミュレーション、輻輳通知の生成、データセンター量子化輻輳通知ベース(DCQCN)の動的レート制御の実行、およびスループット、バッファ管理、等コストマルチパス(ECMP)ハッシュをテストするための柔軟性が含まれます。このソリューションにより、エンジニアは、ラボに専用のAI計算ノードやNICを必要とせずに、ラボまたはステージング環境で改善策を設計し、ベンチマークを行い、その結果を本番環境に適用できます。

AIデータセンター・テスト・ソリューションのデモを見る

当社のネットワークテストソリューションの製品を見る

関連するユースケース

お問い合わせ ロゴ

エキスパートへのお問い合わせ

所望のソリューションを見つけるのにお困りですか?