Habilite Javascript y las cookies del navegador para mejorar las funciones y el rendimiento del sitio.

Chat en directo

Contáctenos

Bienvenido

Has firmado como:

Mi perfil
Cierre de sesión

Confirmar

Confirme su país para acceder a los precios, ofertas especiales, eventos e información de contacto.

Inicie su cotización eligiendo un producto Seleccione una configuración a continuación

Cómo validar la latencia de la inferencia de IA

Obtener presupuesto

Ver resumen de la solución

+ KAI Inference Builder

Detecta los límites de latencia a tiempo

Validar la latencia de la inferencia de la inteligencia artificial (IA) supone un reto, ya que las implementaciones en producción deben procesar simultáneamente usuarios concurrentes, solicitudes con contextos extensos y conversaciones de varios turnos, en lugar de las solicitudes aisladas de las pruebas de rendimiento. Estas condiciones de carga de trabajo pueden aumentar la latencia de respuesta, reducir el rendimiento, provocar la pérdida o el retraso de solicitudes y dar lugar a una utilización desigual de los recursos de la unidad de procesamiento gráfico (GPU) en las diferentes etapas del proceso de inferencia, lo que dificulta predecir el rendimiento en el mundo real basándose únicamente en pruebas sintéticas.

Para validar de forma eficaz la latencia en la inferencia de IA, es necesario contar con una emulación de cargas de trabajo repetible que refleje el comportamiento realista de las solicitudes, la concurrencia de usuarios y los patrones de respuesta, al tiempo que se mide el rendimiento sensible al tiempo en toda la pila. Los ingenieros necesitan tener visibilidad de métricas como el tiempo hasta el primer token, el tiempo hasta el último token, los tokens por segundo, la utilización de la caché y la telemetría de la GPU, para poder identificar cuellos de botella, evaluar los límites de escalabilidad y comprender cómo las decisiones de diseño de la infraestructura afectan a la experiencia del usuario en condiciones similares a las de producción.

Solución para la latencia en la inferencia de IA

Para probar y validar la latencia de la inferencia de IA es necesario generar cargas de trabajo realistas que reflejen cómo interactúan los usuarios con las aplicaciones de modelos de lenguaje a gran escala (LLM) bajo una demanda sostenida y con picos de actividad. Keysight AI Inference Builder permite a los equipos de ingeniería emular tráfico de inferencia de alta fidelidad a gran escala, correlacionar métricas nativas de inferencia con la telemetría a nivel de sistema y detectar cuellos de botella de latencia en las capas de computación, memoria, caché, redes y orquestación, lo que ayuda a optimizar la infraestructura de inferencia de IA antes de su implementación en producción.

Obtener presupuesto

Ver el diagrama de bloques de la solución para la latencia en la inferencia de IA

Cómo validar la latencia de la inferencia de IA

Descubre los productos para la solución de latencia en la inferencia de IA

Paquete KAI Inference Builder 952-1100 con 10 agentes y hasta 10 000 solicitudes por segundo

Más información Ver ficha técnica
952-1010 Paquete KAI Inference Builder con 10 agentes y hasta 1000 solicitudes por segundo

Más información Ver ficha técnica
952-1001 Paquete KAI Inference Builder con 2 agentes y hasta 100 solicitudes por segundo

Más información Ver ficha técnica

Descubra recursos e información

Recursos adicionales para la solución de latencia en la inferencia de IA

Casos prácticos relacionados

Ver todos los casos de uso

Póngase en contacto con uno de nuestros expertos

¿Necesita ayuda para encontrar la solución adecuada para usted?

Contáctenos

¿Qué busca?

Busco asistencia Osciloscopios profesionales Analizadores de espectro portátiles Generadores de señales compactos Encuentre una solución Obtenga asistencia técnica Asista a una clase Encuéntrenos en eventos Equipos usados de primera calidad KeysightCare Comprar en línea

No product matches found - System Exception

Interfaz
Tipos de licencia	Suscripción
Puertos
Protocolos
Tecnología	Pruebas de IA Validación de la inferencia de IA
Factor de forma	Software

Interfaz
Tipos de licencia	Suscripción
Puertos
Protocolos
Tecnología	Pruebas de IA Validación de la inferencia de IA
Factor de forma	Software

Interfaz
Tipos de licencia	Suscripción
Puertos
Protocolos
Tecnología	Pruebas de IA Validación de la inferencia de IA
Factor de forma	Software

Cómo validar la latencia de la inferencia de IA

Detecta los límites de latencia a tiempo

Solución para la latencia en la inferencia de IA

Ver el diagrama de bloques de la solución para la latencia en la inferencia de IA

Descubre los productos para la solución de latencia en la inferencia de IA

Paquete KAI Inference Builder 952-1100 con 10 agentes y hasta 10 000 solicitudes por segundo

952-1010 Paquete KAI Inference Builder con 10 agentes y hasta 1000 solicitudes por segundo

952-1001 Paquete KAI Inference Builder con 2 agentes y hasta 100 solicitudes por segundo

Descubra recursos e información

El camino más rápido hacia el primer token de IA: explorando los gemelos digitales con NVIDIA DSX Air y Keysight Inference Builder

La estructura de las indicaciones: análisis de su efecto en la infraestructura de inferencia

La pila de inferencia sabe hablar, y podemos aprender mucho escuchándola

El camino más rápido hacia el primer token de IA: explorando los gemelos digitales con NVIDIA DSX Air y Keysight Inference Builder

La estructura de las indicaciones: análisis de su efecto en la infraestructura de inferencia

La pila de inferencia sabe hablar, y podemos aprender mucho escuchándola

Casos prácticos relacionados

Póngase en contacto con uno de nuestros expertos

Cómo validar la latencia de la inferencia de IA

Detecta los límites de latencia a tiempo

Solución para la latencia en la inferencia de IA

Ver el diagrama de bloques de la solución para la latencia en la inferencia de IA

Descubre los productos para la solución de latencia en la inferencia de IA

Paquete KAI Inference Builder 952-1100 con 10 agentes y hasta 10 000 solicitudes por segundo

952-1010 Paquete KAI Inference Builder con 10 agentes y hasta 1000 solicitudes por segundo

952-1001 Paquete KAI Inference Builder con 2 agentes y hasta 100 solicitudes por segundo

Paquete KAI Inference Builder 952-1100 con 10 agentes y hasta 10 000 solicitudes por segundo

Especificaciones

952-1010 Paquete KAI Inference Builder con 10 agentes y hasta 1000 solicitudes por segundo

Especificaciones

952-1001 Paquete KAI Inference Builder con 2 agentes y hasta 100 solicitudes por segundo

Especificaciones

Descubra recursos e información

El camino más rápido hacia el primer token de IA: explorando los gemelos digitales con NVIDIA DSX Air y Keysight Inference Builder

La estructura de las indicaciones: análisis de su efecto en la infraestructura de inferencia

La pila de inferencia sabe hablar, y podemos aprender mucho escuchándola

El camino más rápido hacia el primer token de IA: explorando los gemelos digitales con NVIDIA DSX Air y Keysight Inference Builder

La estructura de las indicaciones: análisis de su efecto en la infraestructura de inferencia

La pila de inferencia sabe hablar, y podemos aprender mucho escuchándola

Casos prácticos relacionados

Cómo probar las redes de centros de datos de IA

Cómo validar las interconexiones Ethernet en los centros de datos

Cómo emular las cargas de trabajo del centro de datos de IA

Cómo probar las redes de centros de datos de IA

Cómo validar las interconexiones Ethernet en los centros de datos

Cómo emular las cargas de trabajo del centro de datos de IA

Póngase en contacto con uno de nuestros expertos