為何測試 AI 推論部署很重要？

在生產環境中建構、訓練和部署 AI 模型整個生命週期中，AI 推論佔了大部分成本。為了信心十足地推出，在生產前全面測試 AI 推論基礎設施和堆疊至關重要，以便及早發現效能瓶頸、擴充限制，並獲得更準確的成本估算。Keysight AI 推論建構器專為此領域打造，可揭示整個路徑中的瓶頸：從前端 ALB / WAF / AI 安全閘道到 SmartNIC / DPU，最終到 GPU、KV 快取、記憶體頻寬和服務佇列，找出延遲、故障或擴充限制的源頭，從而實現精確調校和更明智的架構選擇。

我該如何評測 AI 推論部署？

對 AI 推論部署進行基準測試，需要能夠在各種環境中大規模模擬真實 AI 工作負載，並提供有意義 KPI 的測試解決方案。AI 推論基礎設施可以利用各種公有雲或高度客製化的私有部署。因此，請使用能夠從虛擬流量代理產生推論流量，並使用專用硬體的測試工具。儘管許多工具無法滿足這些嚴苛的要求，但 Keysight AI Inference Builder 具備輕量級流量產生代理，能夠在虛擬和實體部署中大規模真實地模擬 AI 推論工作負載，同時提供即時統計資料。它能夠透過使用統一、可重複的基準測試情境，比較多個 AI 基礎設施元件（LLM 引擎、協調器、SmartNIC、ALB / WAF、AI 安全閘道、GPU / TPU），從而降低架構選擇的風險，進而實現資料驅動的決策。

我該如何模擬真實的 AI 工作負載以進行 AI 推論測試？

模擬用於推論測試的真實 AI 工作負載，不僅僅是傳送簡單的 HTTP 提示。這需要深入研究針對各行各業（例如金融、法律）的真實使用者角色，因為每個提示形狀都可能以獨特的方式影響 GPU、記憶體容量或頻寬等推論堆疊。Keysight AI 推論建構器可透過精選的提示模型和工作負載庫，協助最佳化網路、硬體選擇、模型服務層、引擎、協調器以及 GPU/記憶體使用率，這些模型和工作負載反映了各行各業和應用類型（例如金融、法律）或技術基準（例如 GPU 運算、記憶體）的真實使用模式。

哪些統計數據對 AI 推論驗證很重要？

驗證 AI 推論部署需要從用戶端、網路傳輸以及非常重要的服務堆疊等各個層面解讀統計數據。在此背景下，從用戶端和伺服器角度對推論原生 KPI 進行單一視窗檢視，對於發現隱藏的 AI 推論堆疊瓶頸和低效率至關重要。Keysight AI 推論建構器能夠在一個時間同步視圖中，將用戶端指標與推論引擎層級遙測數據（例如 VLLM 統計數據）和系統層級 GPU 遙測數據（例如 DCGM 數據）進行無與倫比的關聯。這些統計數據包括並行使用者、第一個權杖時間、最後一個權杖時間、提示/秒、權杖速率、預填充和解碼時間、快取利用率、排程器狀態、GPU 功耗和張量核心使用率。

我該如何確保 AI 推論部署具備可擴充、穩固且彈性的特性？

可擴充、穩固且具韌性的 AI 推論部署，需要藉由可輕鬆擴充至生產級使用者並行數、提供對產生流量負載的精細控制，並為動態混合的代表性測試情境提供全面自動化功能的工具，進行嚴格的驗證。Keysight AI 推論建構器可透過擴充至數百萬個模擬使用者，以評估生產規模負載下的 AI 推論基礎設施和軟體堆疊，並對產生的測試負載（即每秒提示數）進行精細控制，進而加速容量規劃並控制成本。它可對 AI 推論基礎設施和堆疊進行無與倫比的韌性和穩固性測試，透過針對重複的短時間測試或長時間浸泡測試而設計的全自動測試情境。