KAI インファレンス・ビルダー 10エージェント、最大1000プロンプト/秒バンドル

KAI Inference Builder バンドルには、10体のエージェントと、1秒あたり最大1000件のプロンプトが含まれます(1年間のサブスクリプション、世界中で利用可能)。本バンドルはTAA準拠です。

製品画像
  • 形状

    Software

  • License types

    Subscription

  • 性能レベル

    1000 prompts per second, 10000 simulated users

お見積りはこちら

同梱品をご確認いただき、キーサイトが提供する利用可能なアップグレードオプションをご覧ください。

ハイライト

  • 大規模な現実的なAIクライアントの動作をエミュレートし、AI推論インフラストラクチャとスタック全体を検証します。
  • AI推論パイプラインのさまざまな段階でプレッシャーポイントを駆動する、異なるAIペルソナプロンプトを選択してください。
  • 完全仮想またはハードウェアベースの推論クライアントエミュレーションを使用して、パブリッククラウドまたはプライベートクラウドにデプロイされたAI推論インフラストラクチャを検証します。
  • 生成される1秒あたりのプロンプト負荷をきめ細かく制御することで、数百万のエミュレートされたユーザーにまで拡張し、比類ないAI推論スケールテストを実現します。
  • AI推論パイプラインの様々なコンポーネントにおける潜在的なボトルネック、制限、非効率性に関する実用的な洞察を得るために、詳細な推論統計を取得します。
    • GPUコンピューティング
    • HBM / VRAMメモリシステム
    • KVキャッシュとストレージ層
    • PCIeおよびRDMAインターコネクト
    • モデルエンジンとオーケストレーター
  • クライアント側メトリクスを、推論エンジンレベルのテレメトリ(例:VLLM統計)およびシステムレベルのGPUテレメトリ(例:DCGMデータ)の取り込みと、単一の時刻同期ビューで相関させます。
    • 1秒あたりのプロンプト数
    • 同時ユーザー
    • 初回トークン生成時間 (TTFT) — 最大値とパーセンタイル (例: P50、P90、P99)
    • 最終トークン生成時間 (TTLT) — 最大値とパーセンタイル (例: P50、P90、P99)
    • 1秒あたりのトークン数(入力/出力)
    • キャッシュ使用量
    • プリフィルおよびデコード時間
    • Tensorコアの使用法
    • スケジューラ状態
    • GPU電力使用量