Durante años, la estrategia de infraestructura de IA se centró en el entrenamiento. Ahora, el sector está cambiando su enfoque hacia la forma en que los modelos de IA responden a las solicitudes y consultas de los usuarios. Este proceso se conoce como «inferencia» y está cobrando un papel protagonista.
Keysight AI (KAI) Inference Builder está diseñado para esta nueva era. KAI Inference Builder, una solución de emulación y análisis orientada a la inferencia, reproduce el comportamiento del cliente y las respuestas de la IA para probar y optimizar la infraestructura de IA en condiciones de carga de trabajo realistas. Gracias a la validación completa basada en cargas de trabajo, ya no es necesario conformarse con pruebas de rendimiento genéricas o pruebas de carga.
La inferencia determina la experiencia del usuario, por lo que la coherencia requiere una validación en condiciones reales, no pruebas de rendimiento en laboratorio.
Las distintas aplicaciones ejercen presión sobre la capacidad de cálculo, la memoria y la latencia. Sin una validación precisa de la carga de trabajo, resulta difícil identificar los cuellos de botella.
La inferencia abarca la seguridad, las redes, la recuperación de datos y la computación. El eslabón más débil es el que determina el rendimiento.
Las medidas de protección y los controles de políticas influyen en la estabilidad a gran escala. Los operadores deben demostrar la seguridad y el rendimiento bajo cargas reales de la red.
Comprueba la ruta completa de solicitud-respuesta utilizando solicitudes reales, concurrencia y transmisión de tokens. KAI Inference Builder ayuda a los equipos a detectar cuellos de botella en el equilibrio de carga, las redes y la computación, antes de que se produzcan en producción.
Identifica los cuellos de botella en las capas de computación de la GPU, memoria, caché KV, almacenamiento, PCIe, RDMA y orquestación. En el modo «one-arm», KAI Inference Builder actúa como un cliente de inferencia a gran escala, dirigiendo cargas de trabajo en forma de prompts directamente a las pilas de inferencia, de modo que los equipos de redes puedan localizar los problemas más rápidamente y ajustar el rendimiento con precisión.
Introduce formas de mensajes de error reales en la pila y correlaciona la telemetría resultante para determinar qué necesita tu sistema: ya sea más memoria, una mejor programación, rutas de recuperación más sólidas o una mayor utilización de la GPU. Al medir los flujos de trabajo de inferencia de extremo a extremo, KAI Inference Builder transforma el complejo comportamiento del sistema en información clara y útil.
No todas las cargas de trabajo de inferencia se comportan de la misma manera. Por eso, KAI Inference Builder modela los formatos de las solicitudes y las respuestas de los modelos específicos de cada sector. Con soporte para los sectores jurídico, financiero y otros, KAI Inference Builder ayuda a los equipos a generar pruebas específicas para cada carga de trabajo, comparar arquitecturas y detectar regresiones a medida que evolucionan los modelos y los patrones de las solicitudes.
Los plazos de implementación de la infraestructura de IA suelen verse limitados por la disponibilidad del hardware. Por eso, KAI Inference Builder ofrece una integración llave en mano con los entornos de gemelos digitales de NVIDIA DSX Air. KAI Inference Builder emula las solicitudes y respuestas de inferencia del mundo real dentro del entorno modelado del centro de datos, lo que permite a los equipos de redes comenzar a validar y optimizar las implementaciones antes de que la infraestructura física esté completamente instalada.
¿Qué busca?