Pacote KAI Inference Builder com 10 agentes e até 1.000 solicitações por segundo

O Pacote KAI Inference Builder inclui 10 agentes e até 1.000 solicitações por segundo (assinatura de 1 ano, com licença flutuante válida em todo o mundo). O pacote está em conformidade com a TAA.

prod_image
  • Form factor

    Software

  • License types

    Subscription

  • Nível de desempenho

    1000 prompts per second, 10000 simulated users

Pronto para um orçamento

Descubra o que está incluído e explore as opções de atualização disponíveis da Keysight.

Destaques

  • Simule o comportamento realista de clientes de IA em grande escala para validar infraestruturas e pilhas completas de inferência de IA.
  • Escolha diferentes prompts de personalidade de IA que atuem em pontos-chave em diferentes etapas do fluxo de inferência de IA.
  • Valide infraestruturas de inferência de IA implantadas em nuvem pública ou privada por meio de emulação de cliente de inferência totalmente virtual ou baseada em hardware.
  • Amplie a escala para milhões de usuários emulados com controle granular sobre a carga de prompts gerados por segundo, para testes de escala de inferência de IA sem igual.
  • Obtenha estatísticas detalhadas de inferência para obter insights úteis sobre possíveis gargalos, limites e ineficiências em vários componentes do pipeline de inferência de IA:
    • Computação por GPU
    • Sistemas de memória HBM / VRAM
    • Camadas de cache e armazenamento KV
    • Interconexões PCIe e RDMA
    • Motores de modelagem e orquestradores
  • Correlacione métricas do lado do cliente com a ingestão de telemetria no nível do mecanismo de inferência (por exemplo, estatísticas do VLLM) e telemetria da GPU no nível do sistema (por exemplo, dados do DCGM) em uma única visualização sincronizada no tempo:
    • Sugestões: segundo
    • Usuários simultâneos
    • Tempo até o primeiro token (TTFT) — Valor máximo e percentis (por exemplo, P50, P90, P99)
    • Tempo até o último token (TTLT) — Valor máximo e percentis (por exemplo, P50, P90, P99)
    • Tokens por segundo (entrada/saída)
    • Uso do cache
    • Tempo de pré-preenchimento e decodificação
    • Utilização do Tensor Core
    • Estado do agendador
    • Consumo de energia da GPU