お探しのページはこちらでしょか. その他の検索結果:

KAI Inference Builder AI推論インフラストラクチャの検証と最適化

モデル: 952-1010

概要
オプション
アクセサリ
ソフトウェア
サポート

KAI インファレンス・ビルダー 10エージェント、最大1000プロンプト/秒バンドル

KAI Inference Builder バンドルには、10体のエージェントと、1秒あたり最大1000件のプロンプトが含まれます（1年間のサブスクリプション、世界中で利用可能）。本バンドルはTAA準拠です。

形状

Software
License types

Subscription
性能レベル

1000 prompts per second, 10000 simulated users

View Data Sheet

ハイライト

大規模な現実的なAIクライアントの動作をエミュレートし、AI推論インフラストラクチャとスタック全体を検証します。
AI推論パイプラインのさまざまな段階でプレッシャーポイントを駆動する、異なるAIペルソナプロンプトを選択してください。
完全仮想またはハードウェアベースの推論クライアントエミュレーションを使用して、パブリッククラウドまたはプライベートクラウドにデプロイされたAI推論インフラストラクチャを検証します。
生成される1秒あたりのプロンプト負荷をきめ細かく制御することで、数百万のエミュレートされたユーザーにまで拡張し、比類ないAI推論スケールテストを実現します。
AI推論パイプラインの様々なコンポーネントにおける潜在的なボトルネック、制限、非効率性に関する実用的な洞察を得るために、詳細な推論統計を取得します。
- GPUコンピューティング
- HBM / VRAMメモリシステム
- KVキャッシュとストレージ層
- PCIeおよびRDMAインターコネクト
- モデルエンジンとオーケストレーター
クライアント側メトリクスを、推論エンジンレベルのテレメトリ（例：VLLM統計）およびシステムレベルのGPUテレメトリ（例：DCGMデータ）の取り込みと、単一の時刻同期ビューで相関させます。
- 1秒あたりのプロンプト数
- 同時ユーザー
- 初回トークン生成時間 (TTFT) — 最大値とパーセンタイル (例: P50、P90、P99)
- 最終トークン生成時間 (TTLT) — 最大値とパーセンタイル (例: P50、P90、P99)
- 1秒あたりのトークン数（入力/出力）
- キャッシュ使用量
- プリフィルおよびデコード時間
- Tensorコアの使用法
- スケジューラ状態
- GPU電力使用量