¿Qué busca?
Redes de IA
Maximice el rendimiento del centro de datos de IA.
Optimizar el rendimiento y la eficacia de la red de IA
Acelere los despliegues de centros de datos de IA, valide el rendimiento de SmartNIC y realice pruebas de presión de los componentes de red. Utilice emuladores de tráfico del mundo real para realizar un seguimiento en tiempo real de una serie de métricas de IA estándar del sector, como el tiempo de finalización de los trabajos y el ancho de banda de comunicación colectiva. Evalúe el rendimiento de la red de IA, detecte cuellos de botella y optimice la distribución de la carga de trabajo de IA con herramientas de prueba de red optimizadas para IA, incluidos emuladores de carga de trabajo de IA, generadores de tráfico de red distribuido y emuladores de tráfico de red.
Todo lo que debe saber sobre las redes de inteligencia artificial
Juniper crea redes de IA de próxima generación con Keysight
Descubra cómo Juniper Networks se asoció con Keysight para crear una infraestructura de red para redes de IA. Descubra cómo las herramientas de emulación de red de Keysight ayudaron a Juniper a probar y validar sus productos frente a las demandas del mundo real de los centros de datos de IA.
5 estrategias para optimizar y ampliar los centros de datos de IA
La IA está transformando los sectores e impulsando la innovación. Sin embargo, los patrones de tráfico únicos, las cargas de trabajo dinámicas y las incesantes presiones sobre el rendimiento pueden hacer que incluso los problemas más pequeños se conviertan en problemas críticos.
Lea este libro electrónico para descubrir cinco soluciones prácticas para optimizar el rendimiento del centro de datos de IA para aplicaciones modernas.
Mejora de la escalabilidad en clústeres de centros de datos de IA
¿Puede su infraestructura de red escalar para gestionar las complejas cargas de trabajo de formación de IA de alto tráfico? Este informe técnico profundiza en el escalado de clústeres de centros de datos de IA, identifica los retos críticos de la red y explica cómo garantizar redes escalables y fiables para las ambiciones de IA de su organización.
AI Networking Bootcamp
Únase a los ingenieros de Keysight para una inmersión profunda en el mundo de las pruebas de redes de IA y la validación de despliegues de centros de datos de IA. Al final de este curso, obtendrá los conocimientos y la confianza necesarios para tomar el control de este nuevo paradigma de redes innovador y en rápida evolución.
Evaluación comparativa de las operaciones colectivas
La medición o evaluación comparativa del rendimiento de la red en un colectivo de IA puede ayudar a las organizaciones a identificar oportunidades para optimizar y mejorar el rendimiento general sin costes adicionales de hardware. Este libro blanco explica el funcionamiento de los colectivos de IA, define la terminología y revisa las métricas más comunes asociadas a la evaluación comparativa de las redes de IA.
Validación de Ethernet sin pérdidas a velocidades de hasta 1,6T
Adelántese a la aceleración de las demandas de rendimiento garantizando una transmisión de datos fiable en redes de IA / ML y computación de alto rendimiento.
Pruebas de presión de equipos de red de IA contra emulaciones de cargas de trabajo de IA
Reduzca la necesidad de costosas configuraciones de laboratorio basadas en GPU con generadores de tráfico de alta densidad que emulan el comportamiento de las cargas de trabajo de IA para optimizar el rendimiento y la eficiencia.
Vea cómo afectan al rendimiento los parámetros de red específicos de la IA
Elija entre una serie de modelos de tráfico y perfiles de carga de trabajo para simplificar la evaluación comparativa y probar el rendimiento de la red a nivel de componentes y sistemas.
Soluciones para redes de inteligencia artificial
Optimice la infraestructura de IA con KAI Data Center Builder
Evalúe el rendimiento del centro de datos de IA con una fidelidad sin precedentes. KAI Data Center Builder emula la combinación de comunicaciones colectivas y algoritmos utilizados para construir un gran modelo de aprendizaje (LLM), lo que facilita la validación de la infraestructura de red y los tejidos de IA mediante pruebas en todo el sistema.
Maximice la fiabilidad y el rendimiento de 1,6T Ethernet
Pruebe productos Ethernet de vanguardia para interconexiones AI y redes de centros de datos. Con soporte de pruebas de capa física (L1) y de protocolo (L2-3), el comprobador de rendimiento de interconexión y red 1600GE de Keysight ofrece una cobertura de pruebas inigualable para interconexiones de cable óptico y activo, conmutadores de red y redes de IA.
Valide los SmartNIC y la infraestructura LLM con CyPerf
Pruebe a presión equipos de red de alto rendimiento contra emulaciones de tráfico y escenarios de prueba nativos de IA y de cómputo intensivo. Keysight CyPerf facilita la evaluación del rendimiento, la escalabilidad y la estabilidad del sistema mediante benchmarking, simulación de tráfico real y pruebas a gran escala.
Proteja los LLM de ataques avanzados con BreakingPoint
Proteja los grandes modelos de lenguaje del tipo más frecuente de ciberataque que afecta a las redes de IA: los ataques de inyección puntual. Keysight BreakingPoint, una herramienta avanzada de pruebas de aplicaciones y seguridad de redes, puede validar la seguridad, la estabilidad y el rendimiento de las redes de IA y los equipos de red que las alimentan.
Perspectiva ejecutiva: Soluciones de IA de Keysight
Escuche a Ram Periakaruppan, vicepresidente y director general del negocio de aplicaciones de red y seguridad de Keysight Technologies, hablar sobre los retos clave a los que se enfrentan los centros de datos de IA, cómo optimizar el rendimiento y la eficiencia de la IA y cómo Keysight está ayudando con la cartera de soluciones de centros de datos preparados para la IA de Keysight AI.
Configuraciones de prueba para validar las redes de IA
Probar las redes de centros de datos de IA
Emule cargas de trabajo de IA para comparar equipos de red y validar tejidos de IA / ML.
Validar interconexiones Ethernet
Garantice la transmisión de datos de alta calidad y la corrección de errores mediante pruebas de fiabilidad y rendimiento.
Emular las cargas de trabajo del centro de datos de IA
Optimice la infraestructura para el rendimiento del entrenamiento de IA con una metodología de pruebas coherente y escalable.
Más información sobre las redes de IA
Preguntas más frecuentes: Redes de IA
En una red tradicional, el tipo y el tamaño de la carga de trabajo varían, el tráfico se distribuye entre distintas conexiones, crece proporcionalmente al número de usuarios y los paquetes retrasados o perdidos no suelen causar problemas significativos. En una red de IA, todas las GPU trabajan en el mismo problema, la construcción de un gran modelo de lenguaje (LLM). Las cargas de trabajo para construir un LLM requieren que se compartan cantidades masivas de datos entre las GPU sin que se caigan paquetes o se produzcan congestiones. Dado que todas las GPU están trabajando en el mismo problema, completan una tarea cuando la última GPU finaliza el procesamiento. Cualquier retraso en la entrega de datos a una GPU significa que toda la carga de trabajo se retrasa.
Optimizar una red de IA es diferente de optimizar una red de centro de datos tradicional. Las redes de IA funcionan casi al límite de su capacidad y deben funcionar sin pérdidas para maximizar la utilización de la GPU. Existen diferentes mecanismos de congestión con diversas configuraciones. Ejecutar cargas de trabajo de IA en un entorno de laboratorio con herramientas de evaluación comparativa proporciona una vía para encontrar las configuraciones y ajustes óptimos que luego pueden aplicarse a los entornos de producción.
En una red de IA, las GPU trabajan en el mismo problema y sólo completan una tarea cuando la última GPU recibe los datos que necesita y termina de procesarlos. Una de las medidas clave del rendimiento de una red de IA es la latencia de cola, es decir, los flujos con los tiempos de finalización más largos. La medida se denomina P95: el tiempo de finalización del cinco por ciento más lento de los flujos de la red.
RDMA es un acrónimo de Remote Direct Memory Access (acceso remoto directo a memoria). RDMA permite a las GPU transferir datos entre sí en un centro de datos de IA con una participación mínima de la CPU y las pilas de red. Esto permite comunicaciones de baja latencia y alto rendimiento en un centro de datos de IA. Las tarjetas de interfaz de red RDMA de un servidor se conectan a conmutadores RDMA para permitir la comunicación a alta velocidad entre las GPU.
Ultra Ethernet (UE) añade capacidades a Ethernet para proporcionar una red rápida, altamente escalable y de baja latencia para los requisitos de IA y computación de alto rendimiento. La pulverización de paquetes permite que los flujos utilicen más de una ruta hacia un destino, lo que mejora el equilibrio de la carga en la red. El orden flexible permite que los paquetes lleguen a su destino desordenados. El control de la congestión basado en el receptor se basa en los mecanismos existentes de control de la congestión basados en el emisor para mejorar la congestión en la transmisión que se produce con colectivos de IA como All-to-All. La telemetría mejorada permite tiempos de señalización más rápidos en el plano de control, lo que mejora la respuesta a los eventos de congestión. UE es interoperable con los conmutadores Ethernet de centros de datos existentes, pero funcionará de forma más eficiente -con una mayor utilización de la red y una latencia de cola reducida- utilizando conmutadores y tarjetas de interfaz de red basados en UEC.
El movimiento de datos entre GPUs se denomina Operación Colectiva. Existen varios tipos diferentes, dependiendo de la ubicación inicial y final de los datos y de si es necesario realizar una ejecución matemática sobre los datos durante el proceso. Los tipos más utilizados son Broadcast and Gather, ReduceScatter, AllGather, AllReduce y AlltoAll. La presencia de la palabra clave "reduce" en el nombre de la operación significa que esta operación realiza cálculos sobre los datos. Una operación colectiva puede implementarse utilizando cualquier número de algoritmos. Los algoritmos más conocidos para AllReduce son Unidirectional and Bidirectional Ring, Double Binary Tree y Halving-Doubling. Cada uno de ellos muestra un rendimiento mejor o peor en función del número de GPU y de cómo estén interconectadas.
¿Necesita ayuda o tiene alguna pregunta?