Cómo probar las redes de centros de datos de IA

Plataforma de pruebas de centros de datos de IA
+ Emulador de tráfico 800GE

Reproducción realista del comportamiento en red de las cargas de trabajo de IA

La evaluación comparativa de la estructura de clústeres de inteligencia artificial y aprendizaje automático con cargas de trabajo realistas suele requerir inversiones en sistemas informáticos con GPU y controladores de interfaz de red (NIC) de acceso remoto directo a memoria (RDMA), cuya construcción y funcionamiento son costosos y requieren mucho tiempo. Para optimizar al máximo las redes de IA es necesario desplegar y poner en funcionamiento estos sistemas para su validación y experimentación a escala de terabits en el laboratorio. La evaluación comparativa y las pruebas adecuadas de las redes de IA requieren configurar parámetros como la configuración del clúster, el control de la congestión, los algoritmos de carga de trabajo, el tamaño de los datos de trabajo, el perfil de tráfico y el rendimiento de las NIC.

La generación de tráfico de carga de trabajo de IA realista y a gran escala para la evaluación comparativa de redes requiere emuladores de punto final RDMA / RDMA sobre Ethernet convergente (RoCEv2) y software con metodologías preempaquetadas que admitan patrones de comunicaciones colectivas, incluidos todos contra todos, todos reducen, todos reúnen y más. El software proporciona las cargas de trabajo de datos específicas de las redes de IA que miden parámetros clave como el tiempo de finalización de los trabajos, el algoritmo y el ancho de banda del bus, así como información sobre el rendimiento del tejido de la red.

Solución de prueba de redes de centros de datos de IA

Probar una red de centro de datos de IA requiere emuladores de tráfico de red y software con metodologías preempaquetadas que admitan cargas de trabajo de IA. La solución de prueba de red de centro de datos de IA incluye la emulación de punto final Keysight AresONE 800GE RoCEv2 emparejada con el software Keysight AI Data Center Builder. Esta solución puede crear repetidamente escenarios con diferentes tamaños de datos resultantes de comunicaciones colectivas en un clúster de IA. Cada puerto del AresONE emula una GPU y una RDMA NIC. El tráfico incluye la emulación de conexiones y flujos de pares de colas (QP), la generación de notificaciones de congestión, la realización de un control de velocidad dinámico basado en notificaciones de congestión cuantificadas en el centro de datos (DCQCN) y la flexibilidad para probar el rendimiento, la gestión de búferes y el hashing de rutas múltiples de igual coste (ECMP). Con esta solución, los ingenieros pueden diseñar mejoras en un entorno de laboratorio o de ensayo, realizar pruebas comparativas y aplicar los resultados a un entorno de producción sin necesidad de nodos informáticos y NIC de IA dedicados en el laboratorio.

Vea la demostración de nuestra solución de prueba de centros de datos de IA

Explore los productos de nuestras soluciones de comprobación de redes

Casos prácticos relacionados

contacto logotipo

Póngase en contacto con uno de nuestros expertos

¿Necesita ayuda para encontrar la solución adecuada para usted?