AIネットワークパフォーマンスと効率を最適化

AIデータセンターの展開を加速し、SmartNICのパフォーマンスを検証し、ネットワークコンポーネントに負荷テストを実施します。実世界のトラフィックエミュレータを使用して、ジョブ完了時間や集合通信帯域幅などの業界標準AIメトリックの配列をリアルタイムで追跡します。AIワークロードエミュレータ、分散ネットワークトラフィックジェネレータ、ネットワークトラフィックエミュレータなどのAI最適化ネットワークテストツールを使用して、AIネットワークのパフォーマンスをベンチマークし、ボトルネックを検出し、AIワークロードの分散を最適化します。

最大1.6Tの速度でロスレス・イーサネットを検証

AI/MLおよび高性能コンピューティングネットワークにおける信頼性の高いデータ伝送を確保することで、加速する性能要求に先行して対応します。

AIワークロードエミュレーションに対してAIネットワーク機器の負荷テストを行います。

AIワークロードの動作をエミュレートする高密度トラフィックジェネレータにより、高価なGPUベースのラボセットアップの必要性を低減し、性能と効率を最適化します。

AI固有のネットワークパラメータがパフォーマンスにどのように影響するかを確認します。

さまざまなトラフィックモデルとワークロードプロファイルから選択して、ベンチマークを簡素化し、コンポーネントレベルおよびシステムレベルでネットワークパフォーマンスをテストします。

エグゼクティブの視点:キーサイトAIソリューション

キーサイト・テクノロジーのネットワークアプリケーションおよびセキュリティ事業担当バイスプレジデント兼ゼネラルマネージャーであるRam Periakaruppanが、AIデータセンターが直面する主要な課題、AIのパフォーマンスと効率を最適化する方法、そしてキーサイトがAI対応データセンターソリューションのキーサイトAIポートフォリオでどのように貢献しているかについて議論するのをお聞きください。

AIネットワークについてさらに詳しく

AIネットワーク:よくあるご質問

従来のネットワークでは、ワークロードの種類とサイズは異なり、トラフィックは異なる接続間で分散され、ユーザー数に比例して増加し、遅延またはドロップされたパケットが通常、重大な問題を引き起こすことはありません。AIネットワークでは、GPUはすべて同じ問題、つまり大規模言語モデル(LLM)の構築に取り組んでいます。LLMを構築するためのワークロードでは、パケットをドロップしたり輻輳に遭遇したりすることなく、GPU間で大量のデータを共有する必要があります。GPUはすべて同じ問題に取り組んでいるため、最後のGPUが処理を完了したときにタスクが完了します。1つのGPUへのデータ配信が遅れると、ワークロード全体が遅延することになります。

AIネットワークの最適化は、従来のデータセンターネットワークの最適化とは異なります。AIネットワークはほぼ最大容量で稼働し、GPU利用率を最大化するためにロスレスである必要があります。さまざまな設定で異なる輻輳メカニズムが利用可能です。ベンチマークツールを使用してラボ環境でAIワークロードを実行することは、最適な構成と設定を見つけ、それを本番環境に適用するための道筋を提供します。

AIネットワークでは、GPUは同じ問題に取り組み、最後のGPUが必要なデータを受け取り、処理を完了したときにのみタスクが完了します。AIネットワークの性能の主要な測定値の1つはテールレイテンシ、つまり最も完了時間が長いフローです。この測定値はP95と呼ばれ、ネットワークフローの最も遅い5パーセントの完了時間を示します。

RDMAはRemote Direct Memory Accessの頭字語です。RDMAにより、AIデータセンターにおいて、CPUとネットワーキングスタックの関与を最小限に抑えながら、GPU間でデータを転送できます。これにより、AIデータセンターで低レイテンシかつ高スループットの通信が可能になります。サーバー内のRDMA対応ネットワークインターフェースカードは、RDMA対応スイッチに接続され、GPU間の高速通信を可能にします。

Ultra Ethernet (UE)はイーサネットに機能を追加し、AIおよび高性能コンピューティングの要件に対応する、高速で拡張性が高く、低遅延のネットワークを提供します。パケットスプレーにより、フローは宛先への複数のパスを使用でき、ネットワーク全体の負荷分散が向上します。フレキシブルオーダリングにより、パケットは順不同で宛先に到達できます。レシーバーベースの輻輳制御は、既存の送信者ベースの輻輳制御メカニズムを基盤とし、All-to-AllなどのAIコレクティブで発生するインキャスト輻輳を改善します。テレメトリの改善により、コントロールプレーンのシグナリング時間が短縮され、輻輳イベントへの応答が向上します。UEは既存のデータセンターイーサネットスイッチと相互運用可能ですが、UECベースのスイッチとネットワークインターフェースカードを使用することで、より高いネットワーク利用率とテール遅延の削減により、より効率的に動作します。

GPU間のデータ移動は「集合演算(Collective Operation)」と呼ばれます。データの初期位置と最終位置、および処理中にデータに対して数学的演算を実行する必要があるかどうかに応じて、いくつかの異なるタイプがあります。一般的に使用されるタイプには、BroadcastとGather、ReduceScatter、AllGather、AllReduce、AlltoAllがあります。「reduce」というキーワードが演算名に含まれている場合、その演算がデータに対して計算を実行することを示します。集合演算は、任意の数のアルゴリズムを使用して実装できます。AllReduceのよく知られたアルゴリズムには、単方向および双方向リング、ダブルバイナリツリー、およびハーフィング・ダブリングがあります。それぞれ、GPUの数とそれらの相互接続方法に応じて、パフォーマンスが向上または低下します。

サポートが必要ですか、ご質問がありますか?