Optimizar el rendimiento y la eficacia de la red de IA

Acelere los despliegues de centros de datos de IA, valide el rendimiento de SmartNIC y realice pruebas de presión de los componentes de red. Utilice emuladores de tráfico del mundo real para realizar un seguimiento en tiempo real de una serie de métricas de IA estándar del sector, como el tiempo de finalización de los trabajos y el ancho de banda de comunicación colectiva. Evalúe el rendimiento de la red de IA, detecte cuellos de botella y optimice la distribución de la carga de trabajo de IA con herramientas de prueba de red optimizadas para IA, incluidos emuladores de carga de trabajo de IA, generadores de tráfico de red distribuido y emuladores de tráfico de red.

Validación de Ethernet sin pérdidas a velocidades de hasta 1,6T

Adelántese a la aceleración de las demandas de rendimiento garantizando una transmisión de datos fiable en redes de IA / ML y computación de alto rendimiento.

Pruebas de presión de equipos de red de IA contra emulaciones de cargas de trabajo de IA

Reduzca la necesidad de costosas configuraciones de laboratorio basadas en GPU con generadores de tráfico de alta densidad que emulan el comportamiento de las cargas de trabajo de IA para optimizar el rendimiento y la eficiencia.

Vea cómo afectan al rendimiento los parámetros de red específicos de la IA

Elija entre una serie de modelos de tráfico y perfiles de carga de trabajo para simplificar la evaluación comparativa y probar el rendimiento de la red a nivel de componentes y sistemas.

Perspectiva ejecutiva: Soluciones de IA de Keysight

Escuche a Ram Periakaruppan, vicepresidente y director general del negocio de aplicaciones de red y seguridad de Keysight Technologies, hablar sobre los retos clave a los que se enfrentan los centros de datos de IA, cómo optimizar el rendimiento y la eficiencia de la IA y cómo Keysight está ayudando con la cartera de soluciones de centros de datos preparados para la IA de Keysight AI.

Preguntas más frecuentes: Redes de IA

En una red tradicional, el tipo y el tamaño de la carga de trabajo varían, el tráfico se distribuye entre distintas conexiones, crece proporcionalmente al número de usuarios y los paquetes retrasados o perdidos no suelen causar problemas significativos. En una red de IA, todas las GPU trabajan en el mismo problema, la construcción de un gran modelo de lenguaje (LLM). Las cargas de trabajo para construir un LLM requieren que se compartan cantidades masivas de datos entre las GPU sin que se caigan paquetes o se produzcan congestiones. Dado que todas las GPU están trabajando en el mismo problema, completan una tarea cuando la última GPU finaliza el procesamiento. Cualquier retraso en la entrega de datos a una GPU significa que toda la carga de trabajo se retrasa.

Optimizar una red de IA es diferente de optimizar una red de centro de datos tradicional. Las redes de IA funcionan casi al límite de su capacidad y deben funcionar sin pérdidas para maximizar la utilización de la GPU. Existen diferentes mecanismos de congestión con diversas configuraciones. Ejecutar cargas de trabajo de IA en un entorno de laboratorio con herramientas de evaluación comparativa proporciona una vía para encontrar las configuraciones y ajustes óptimos que luego pueden aplicarse a los entornos de producción.

En una red de IA, las GPU trabajan en el mismo problema y sólo completan una tarea cuando la última GPU recibe los datos que necesita y termina de procesarlos. Una de las medidas clave del rendimiento de una red de IA es la latencia de cola, es decir, los flujos con los tiempos de finalización más largos. La medida se denomina P95: el tiempo de finalización del cinco por ciento más lento de los flujos de la red.

RDMA es un acrónimo de Remote Direct Memory Access (acceso remoto directo a memoria). RDMA permite a las GPU transferir datos entre sí en un centro de datos de IA con una participación mínima de la CPU y las pilas de red. Esto permite comunicaciones de baja latencia y alto rendimiento en un centro de datos de IA. Las tarjetas de interfaz de red RDMA de un servidor se conectan a conmutadores RDMA para permitir la comunicación a alta velocidad entre las GPU.

Ultra Ethernet (UE) añade capacidades a Ethernet para proporcionar una red rápida, altamente escalable y de baja latencia para los requisitos de IA y computación de alto rendimiento. La pulverización de paquetes permite que los flujos utilicen más de una ruta hacia un destino, lo que mejora el equilibrio de la carga en la red. El orden flexible permite que los paquetes lleguen a su destino desordenados. El control de la congestión basado en el receptor se basa en los mecanismos existentes de control de la congestión basados en el emisor para mejorar la congestión en la transmisión que se produce con colectivos de IA como All-to-All. La telemetría mejorada permite tiempos de señalización más rápidos en el plano de control, lo que mejora la respuesta a los eventos de congestión. UE es interoperable con los conmutadores Ethernet de centros de datos existentes, pero funcionará de forma más eficiente -con una mayor utilización de la red y una latencia de cola reducida- utilizando conmutadores y tarjetas de interfaz de red basados en UEC.

El movimiento de datos entre GPUs se denomina Operación Colectiva. Existen varios tipos diferentes, dependiendo de la ubicación inicial y final de los datos y de si es necesario realizar una ejecución matemática sobre los datos durante el proceso. Los tipos más utilizados son Broadcast and Gather, ReduceScatter, AllGather, AllReduce y AlltoAll. La presencia de la palabra clave "reduce" en el nombre de la operación significa que esta operación realiza cálculos sobre los datos. Una operación colectiva puede implementarse utilizando cualquier número de algoritmos. Los algoritmos más conocidos para AllReduce son Unidirectional and Bidirectional Ring, Double Binary Tree y Halving-Doubling. Cada uno de ellos muestra un rendimiento mejor o peor en función del número de GPU y de cómo estén interconectadas.

¿Necesita ayuda o tiene alguna pregunta?