Paquete KAI Inference Builder con 10 agentes y hasta 1000 solicitudes por segundo

El paquete KAI Inference Builder incluye 10 agentes y hasta 1000 solicitudes por segundo (suscripción de 1 año, con uso flotante en todo el mundo). El paquete cumple con la normativa TAA.

imagen_del_producto
  • Form factor

    Software

  • License types

    Subscription

  • Performance Level

    1000 prompts per second, 10000 simulated users

¿Listo para un presupuesto?

Descubra qué incluye y explore las opciones de actualización disponibles de Keysight.

Destacados

  • Simula un comportamiento realista de los clientes de IA a gran escala para validar infraestructuras y pilas completas de inferencia de IA.
  • Selecciona diferentes indicaciones de perfiles de IA que generen puntos de presión en distintas etapas del proceso de inferencia de la IA.
  • Valida las infraestructuras de inferencia de IA implementadas en la nube pública o privada mediante la emulación de clientes de inferencia totalmente virtuales o basados en hardware.
  • Amplíe la escala hasta millones de usuarios emulados con un control preciso de las solicitudes generadas por segundo, lo que permite realizar pruebas de escala de inferencia de IA sin igual.
  • Obtén estadísticas detalladas de inferencia para obtener información útil sobre posibles cuellos de botella, limitaciones e ineficiencias en los distintos componentes del proceso de inferencia de IA:
    • Cálculo con GPU
    • Sistemas de memoria HBM / VRAM
    • Caché KV y capas de almacenamiento
    • Interconexiones PCIe y RDMA
    • Motores de modelos y coordinadores
  • Correlacionar las métricas del lado del cliente con la ingesta de datos de telemetría a nivel del motor de inferencia (por ejemplo, estadísticas de VLLM) y de telemetría de la GPU a nivel del sistema (por ejemplo, datos de DCGM) en una única vista sincronizada en el tiempo:
    • Indicaciones: segundo
    • Usuarios simultáneos
    • Tiempo hasta el primer token (TTFT): valor máximo y percentiles (por ejemplo, P50, P90, P99)
    • Tiempo hasta el último token (TTLT): valor máximo y percentiles (por ejemplo, P50, P90, P99)
    • Tokens por segundo (entrada / salida)
    • Uso de la caché
    • Tiempo de precarga y decodificación
    • Uso de Tensor Core
    • Estado del programador
    • Consumo energético de la GPU