何をお探しですか?
AIネットワークス
AIデータセンターのパフォーマンスを最大化します。
AIネットワークパフォーマンスと効率を最適化
AIデータセンターの展開を加速し、SmartNICのパフォーマンスを検証し、ネットワークコンポーネントに負荷テストを実施します。実世界のトラフィックエミュレータを使用して、ジョブ完了時間や集合通信帯域幅などの業界標準AIメトリックの配列をリアルタイムで追跡します。AIワークロードエミュレータ、分散ネットワークトラフィックジェネレータ、ネットワークトラフィックエミュレータなどのAI最適化ネットワークテストツールを使用して、AIネットワークのパフォーマンスをベンチマークし、ボトルネックを検出し、AIワークロードの分散を最適化します。
AIネットワークについて知っておくべきことすべて
ジュニパー、キーサイトと共に次世代AIネットワークを構築
ジュニパーネットワークスがキーサイトと提携してAIネットワーク向けのネットワークインフラストラクチャを構築した方法をご覧ください。キーサイトのネットワークエミュレーションツールが、ジュニパーがAIデータセンターの実際の要求に対して製品をテストおよび検証するのにどのように役立ったかをご覧ください。
AIデータセンターを最適化し、スケールアップするための5つの戦略
AIは産業を変革し、イノベーションを推進しています。しかし、独自のトラフィックパターン、動的なワークロード、そして絶え間ない性能への圧力は、わずかな問題でさえも重大な問題へとエスカレートさせる可能性があります。
このeBookを読んで、最新のアプリケーション向けにAIデータセンターのパフォーマンスを最適化するための5つの実用的なソリューションを発見してください。
AIデータセンタークラスターにおけるスケーラビリティの向上
お客様のネットワークインフラストラクチャは、複雑でトラフィック量の多いAIトレーニングワークロードに対応できますか?このホワイトペーパーでは、AIデータセンタークラスターのスケーリングについて深く掘り下げ、重要なネットワーク課題を特定し、組織のAIへの取り組みのためにスケーラブルで信頼性の高いネットワークを確保する方法を説明します。
AIネットワーキングブートキャンプ
キーサイトのエンジニアと共に、AIネットワークのテストとAIデータセンターの展開の検証の世界を深く掘り下げましょう。このコースの終わりまでに、この急速に変化する革新的な新しいネットワーキングパラダイムを制御するために必要な洞察と自信を得ることができます。
コレクティブオペレーションのベンチマーク
AIクラスターにおけるネットワークパフォーマンスの測定またはベンチマークは、追加のハードウェアコストなしで、全体的なスループットを最適化および改善する機会を特定するのに役立ちます。このホワイトペーパーでは、AIコレクティブの動作を説明し、用語を定義し、AIネットワークのベンチマークに関連する最も一般的なメトリックをレビューします。
最大1.6Tの速度でロスレス・イーサネットを検証
AI/MLおよび高性能コンピューティングネットワークにおける信頼性の高いデータ伝送を確保することで、加速する性能要求に先行して対応します。
AIワークロードエミュレーションに対してAIネットワーク機器の負荷テストを行います。
AIワークロードの動作をエミュレートする高密度トラフィックジェネレータにより、高価なGPUベースのラボセットアップの必要性を低減し、性能と効率を最適化します。
AI固有のネットワークパラメータがパフォーマンスにどのように影響するかを確認します。
さまざまなトラフィックモデルとワークロードプロファイルから選択して、ベンチマークを簡素化し、コンポーネントレベルおよびシステムレベルでネットワークパフォーマンスをテストします。
AIネットワーク向けソリューションを探る
KAI Data Center BuilderでAIインフラストラクチャを最適化
比類のない忠実度でAIデータセンターのパフォーマンスをベンチマークします。KAI Data Center Builderは、大規模学習モデル(LLM)の構築に使用される集合通信とアルゴリズムの組み合わせをエミュレートし、システム全体のテストを通じてネットワークインフラストラクチャとAIファブリックを簡単に検証できるようにします。
1.6Tイーサネットの信頼性と性能を最大化
AIインターコネクトおよびデータセンターネットワーク向けの最先端イーサネット製品をテストします。物理層(L1)およびプロトコル層(L2-3)のテストサポートにより、Keysight Interconnect and Network Performance Tester 1600GEは、光およびアクティブケーブルインターコネクト、ネットワークスイッチ、およびAIネットワークに対して比類のないテストカバレッジを提供します。
CyPerfを使用してSmartNICとLLMインフラストラクチャを検証します。
コンピューティング集約型でAIネイティブなトラフィックエミュレーションおよびテストシナリオに対して、高性能ネットワーク機器をストレステストします。キーサイトのCyPerfは、ベンチマーク、実世界トラフィックシミュレーション、および大規模テストを通じて、システムの性能、スケーラビリティ、安定性を簡単に評価できます。
BreakingPointでLLMを高度な攻撃から保護
AIネットワークに影響を与える最も一般的なサイバー攻撃であるプロンプトインジェクション攻撃から、大規模言語モデルを保護します。高度なネットワークセキュリティおよびアプリケーションテストツールであるKeysight BreakingPointは、AIネットワークとその電源となるネットワーク機器のセキュリティ、安定性、およびパフォーマンスを検証できます。
エグゼクティブの視点:キーサイトAIソリューション
キーサイト・テクノロジーのネットワークアプリケーションおよびセキュリティ事業担当バイスプレジデント兼ゼネラルマネージャーであるRam Periakaruppanが、AIデータセンターが直面する主要な課題、AIのパフォーマンスと効率を最適化する方法、そしてキーサイトがAI対応データセンターソリューションのキーサイトAIポートフォリオでどのように貢献しているかについて議論するのをお聞きください。
AIネットワーク検証用テストセットアップ
AIデータセンターネットワークのテスト
AIワークロードをエミュレートして、ネットワーク機器をベンチマークし、AI / MLファブリックを検証します。
イーサネット・インターコネクトの検証
信頼性と性能をテストすることで、高品質なデータ伝送とエラー訂正を確保します。
AIデータセンターワークロードをエミュレート
一貫性のある拡張可能なテスト手法で、AIトレーニング性能のためのインフラを最適化
AIネットワークについてさらに詳しく
AIネットワーク:よくあるご質問
従来のネットワークでは、ワークロードの種類とサイズは異なり、トラフィックは異なる接続間で分散され、ユーザー数に比例して増加し、遅延またはドロップされたパケットが通常、重大な問題を引き起こすことはありません。AIネットワークでは、GPUはすべて同じ問題、つまり大規模言語モデル(LLM)の構築に取り組んでいます。LLMを構築するためのワークロードでは、パケットをドロップしたり輻輳に遭遇したりすることなく、GPU間で大量のデータを共有する必要があります。GPUはすべて同じ問題に取り組んでいるため、最後のGPUが処理を完了したときにタスクが完了します。1つのGPUへのデータ配信が遅れると、ワークロード全体が遅延することになります。
AIネットワークの最適化は、従来のデータセンターネットワークの最適化とは異なります。AIネットワークはほぼ最大容量で稼働し、GPU利用率を最大化するためにロスレスである必要があります。さまざまな設定で異なる輻輳メカニズムが利用可能です。ベンチマークツールを使用してラボ環境でAIワークロードを実行することは、最適な構成と設定を見つけ、それを本番環境に適用するための道筋を提供します。
AIネットワークでは、GPUは同じ問題に取り組み、最後のGPUが必要なデータを受け取り、処理を完了したときにのみタスクが完了します。AIネットワークの性能の主要な測定値の1つはテールレイテンシ、つまり最も完了時間が長いフローです。この測定値はP95と呼ばれ、ネットワークフローの最も遅い5パーセントの完了時間を示します。
RDMAはRemote Direct Memory Accessの頭字語です。RDMAにより、AIデータセンターにおいて、CPUとネットワーキングスタックの関与を最小限に抑えながら、GPU間でデータを転送できます。これにより、AIデータセンターで低レイテンシかつ高スループットの通信が可能になります。サーバー内のRDMA対応ネットワークインターフェースカードは、RDMA対応スイッチに接続され、GPU間の高速通信を可能にします。
Ultra Ethernet (UE)はイーサネットに機能を追加し、AIおよび高性能コンピューティングの要件に対応する、高速で拡張性が高く、低遅延のネットワークを提供します。パケットスプレーにより、フローは宛先への複数のパスを使用でき、ネットワーク全体の負荷分散が向上します。フレキシブルオーダリングにより、パケットは順不同で宛先に到達できます。レシーバーベースの輻輳制御は、既存の送信者ベースの輻輳制御メカニズムを基盤とし、All-to-AllなどのAIコレクティブで発生するインキャスト輻輳を改善します。テレメトリの改善により、コントロールプレーンのシグナリング時間が短縮され、輻輳イベントへの応答が向上します。UEは既存のデータセンターイーサネットスイッチと相互運用可能ですが、UECベースのスイッチとネットワークインターフェースカードを使用することで、より高いネットワーク利用率とテール遅延の削減により、より効率的に動作します。
GPU間のデータ移動は「集合演算(Collective Operation)」と呼ばれます。データの初期位置と最終位置、および処理中にデータに対して数学的演算を実行する必要があるかどうかに応じて、いくつかの異なるタイプがあります。一般的に使用されるタイプには、BroadcastとGather、ReduceScatter、AllGather、AllReduce、AlltoAllがあります。「reduce」というキーワードが演算名に含まれている場合、その演算がデータに対して計算を実行することを示します。集合演算は、任意の数のアルゴリズムを使用して実装できます。AllReduceのよく知られたアルゴリズムには、単方向および双方向リング、ダブルバイナリツリー、およびハーフィング・ダブリングがあります。それぞれ、GPUの数とそれらの相互接続方法に応じて、パフォーマンスが向上または低下します。
サポートが必要ですか、ご質問がありますか?