Pacchetto KAI Inference Builder con 10 agenti e fino a 1000 richieste al secondo

Il pacchetto KAI Inference Builder include 10 agenti e fino a 1000 richieste al secondo (abbonamento di 1 anno, con licenze fluttuanti valide in tutto il mondo). Il pacchetto è conforme alla normativa TAA.

immagine_prodotto
  • Form factor

    Software

  • License types

    Subscription

  • Performance Level

    1000 prompts per second, 10000 simulated users

Pronto per un preventivo

Scopri cosa è incluso ed esplora le opzioni di aggiornamento disponibili da Keysight.

Punti salienti

  • Simulare un comportamento realistico dei client AI su larga scala per verificare l'intero stack e le infrastrutture di inferenza AI.
  • Scegli diversi prompt per i profili di IA che generano punti di pressione nelle diverse fasi della pipeline di inferenza dell'IA.
  • Verifica le infrastrutture di inferenza AI implementate su cloud pubblico o privato tramite l'emulazione di client di inferenza completamente virtuale o basata su hardware.
  • Scalabilità fino a milioni di utenti emulati con un controllo granulare sul carico di prompt generati al secondo, per test di scalabilità dell'inferenza AI senza pari.
  • Ottieni statistiche dettagliate sull'inferenza per acquisire informazioni utili su potenziali colli di bottiglia, limiti e inefficienze nei vari componenti della pipeline di inferenza dell'IA:
    • Elaborazione su GPU
    • Sistemi di memoria HBM / VRAM
    • Livelli di cache e archiviazione KV
    • Interconnessioni PCIe e RDMA
    • Motori di modellazione e orchestratori
  • Correlare le metriche lato client con l'acquisizione dei dati di telemetria a livello del motore di inferenza (ad esempio, le statistiche VLLM) e dei dati di telemetria della GPU a livello di sistema (ad esempio, i dati DCGM) in un'unica vista sincronizzata nel tempo:
    • I messaggi appariranno un secondo dopo
    • Utenti simultanei
    • Tempo trascorso fino al primo token (TTFT) — Valore massimo e percentili (ad esempio, P50, P90, P99)
    • Tempo trascorso dall'ultimo token (TTLT) — Valore massimo e percentili (ad esempio, P50, P90, P99)
    • Gettoni al secondo (in entrata / in uscita)
    • Utilizzo della cache
    • Tempo di precompilazione e decodifica
    • Utilizzo dei Tensor Core
    • Stato dello scheduler
    • Consumo energetico della GPU