KAI Inference Builder Bundle mit 10 Agenten und bis zu 1000 Eingabeaufforderungen pro Sekunde

Das KAI Inference Builder Bundle umfasst 10 Agenten und bis zu 1000 Eingabeaufforderungen pro Sekunde (1-Jahres-Abonnement, weltweit gültig). Das Bundle ist TAA-konform.

Produktbild
  • Form factor

    Software

  • License types

    Subscription

  • Performance Level

    1000 prompts per second, 10000 simulated users

Bereit für ein Angebot?

Erfahren Sie, was alles enthalten ist und welche Upgrade-Optionen von Keysight verfügbar sind.

Highlights

  • Realistisches KI-Clientverhalten in großem Umfang emulieren, um ganze KI-Inferenzinfrastrukturen und -Stacks zu validieren.
  • Wählen Sie verschiedene KI-Persona-Aufforderungen, die Druckpunkte in verschiedenen Phasen der KI-Inferenzpipeline auslösen.
  • Validierung von KI-Inferenzinfrastrukturen, die in öffentlichen oder privaten Clouds eingesetzt werden, mit vollständig virtueller oder hardwarebasierter Inferenzclient-Emulation.
  • Skalieren Sie auf Millionen von simulierten Benutzern mit detaillierter Kontrolle über die generierten Eingabeaufforderungen pro Sekunde für unübertroffene Skalierungstests von KI-Inferenz.
  • Erhalten Sie detaillierte Inferenzstatistiken, um umsetzbare Erkenntnisse über potenzielle Engpässe, Grenzen und Ineffizienzen in verschiedenen Komponenten der KI-Inferenzpipeline zu gewinnen:
    • GPU-Berechnung
    • HBM / VRAM Speichersysteme
    • KV-Cache- und Speicherschichten
    • PCIe- und RDMA-Verbindungen
    • Modell-Engines und Orchestratoren
  • Korrelation von clientseitigen Metriken mit der Erfassung von Telemetriedaten auf Inferenzmaschinenebene (z. B. VLLM-Statistiken) und GPU-Telemetriedaten auf Systemebene (z. B. DCGM-Daten) in einer einzigen zeitlich synchronisierten Ansicht:
    • Eingabeaufforderungen ser second
    • Gleichzeitige Benutzer
    • Zeit bis zum ersten Token (TTFT) — Maximalwert und Perzentile (z. B. P50, P90, P99)
    • Zeit bis zum letzten Token (TTLT) — Maximalwert und Perzentile (z. B. P50, P90, P99)
    • Token pro Sekunde (Ein-/Ausgabe)
    • Cache-Nutzung
    • Vorfüll- und Dekodierungszeit
    • Tensor Core-Nutzung
    • Planerstatus
    • GPU-Leistungsaufnahme