¿Qué busca?
Centros de datos de IA
Libere la próxima generación de innovación en IA
Liberar el potencial de la IA
Un centro de datos de IA es tan fiable como su eslabón más débil. En la vanguardia del rendimiento, cada chip, cable, interconexión, conmutador, servidor y GPU representa tanto un potencial como un riesgo. Los componentes individuales no solo deben funcionar de forma independiente, sino que también deben trabajar cohesionados como un sistema sometido a una demanda incesante.
La creación de redes capaces de responder a las exigencias de las cargas de trabajo de IA implica validar cada componente, conexión y configuración. Con lo que está en juego y a esta escala, incluso el más pequeño aumento de la eficiencia, mejora operativa o mejora del rendimiento puede generar importantes beneficios, reduciendo las interrupciones y evitando fallos en cascada.
Centros de datos de IA: Un punto de inflexión técnico
Ethernet
Las velocidades de los centros de datos pasarán de 400 / 800G a Ethernet de alta velocidad de 1,6 / 3,2T.
Memoria
DDR5 está dejando paso a DDR6 y HBM3, con velocidades de hasta 12,8 GT/s.
Óptica
Las velocidades de transferencia de 112 Gb/s darán paso a los estándares de 224 y 448 Gb/s.
PCIe® / CXL
PCIe® 7 actualizará PCIe® 5 y PCIe® 6, ya que las transferencias pasan de 32 a 128 GT/s.
Prueba de centros de datos de IA: Un reto multicapa
Acelerar el diseño digital de alta velocidad en la era de la IA
Los centros de datos de IA exigen semiconductores, chipsets y diseños digitales de alta velocidad (HSD) preparados para la IA. Pero el rendimiento de vanguardia tiene un coste. Las velocidades y los estándares evolucionan constantemente, y mantenerse al día a veces significa pensar en una o dos generaciones por delante. Cumplir los requisitos de diseño más avanzados significa ir más allá de la depuración. Cumplir -o superar- los últimos estándares PCIe®, DDR y CXL exige herramientas de simulación avanzadas que puedan analizar los diseños y predecir posibles problemas antes de que se produzcan.
Reimaginar la infraestructura de IA para 1,6T y más allá
Dado que los centros de datos de IA están adoptando velocidades Ethernet de 1,6T, los fabricantes de equipos de red están construyendo nuevos transceptores ópticos para soportarlas. Sin embargo, la conectividad de alta velocidad también requiere una validación de alta velocidad frente a las demandas del mundo real de las redes de IA. Ampliar las pruebas de I+D y producción significa ir más allá de los instrumentos de bajo ruido que miden la capa física: también significa emplear pruebas Ethernet de capa de protocolo para validar el rendimiento en el mundo real.
Optimización del rendimiento y la eficiencia de los centros de datos de IA
Las redes de IA exigen algo más que una validación a nivel de componentes. Las pruebas de la capa física no bastan. La interoperabilidad, el rendimiento y la eficiencia solo pueden medirse a nivel de sistema, en condiciones de red reales. La validación de los componentes del clúster de IA, la optimización de la eficiencia y el escalado de la capacidad requieren conocimientos avanzados obtenidos de la emulación de cargas de trabajo de IA de pila completa. El seguimiento de métricas como el tiempo de finalización de los trabajos y el ancho de banda de la comunicación colectiva ayuda a detectar cuellos de botella, optimizar la distribución de la carga de trabajo de IA e identificar problemas a nivel de componente que, de otro modo, permanecerían ocultos.
Maximizar la eficiencia energética para escalar las cargas de trabajo de IA
En los centros de datos de IA, la gestión de la energía es tan importante como el rendimiento. Sin embargo, aunque los servidores de gama alta y los conmutadores de rack utilizan los mejores chips e interconexiones, la diafonía y las interferencias electromagnéticas pueden causar problemas de gestión de la energía que, en última instancia, pueden impedir la capacidad de ampliación de un centro de datos de IA. Sin herramientas versátiles de automatización y medición del diseño, resulta extremadamente difícil simular las redes de suministro de energía, identificar las causas fundamentales de los problemas energéticos y, en última instancia, garantizar la eficiencia energética.
Aumente sus conocimientos sobre centros de datos de IA
5 estrategias para optimizar y ampliar los centros de datos de IA
La IA está transformando los sectores e impulsando la innovación. Sin embargo, los patrones de tráfico únicos, las cargas de trabajo dinámicas y las incesantes presiones sobre el rendimiento pueden hacer que incluso los problemas más pequeños se conviertan en problemas críticos.
Lea este libro electrónico para descubrir cinco soluciones prácticas para optimizar el rendimiento del centro de datos de IA para aplicaciones modernas.
AI Networking Bootcamp
Únase a los ingenieros de Keysight para una inmersión profunda en el mundo de las pruebas de redes de IA y la validación de despliegues de centros de datos de IA. Al final de este curso, obtendrá los conocimientos y la confianza necesarios para tomar el control de este nuevo paradigma de redes innovador y en rápida evolución.
Mejora de la escalabilidad en clústeres de centros de datos de IA
¿Puede su infraestructura de red escalar para gestionar las complejas cargas de trabajo de formación de IA de alto tráfico? Este informe técnico profundiza en el escalado del clúster del centro de datos de IA, identifica los retos críticos de la red y explica cómo garantizar redes escalables y fiables para las ambiciones de IA de su organización.
Evaluación comparativa de las operaciones colectivas
La medición o evaluación comparativa del rendimiento de la red en un colectivo de IA puede ayudar a las organizaciones a identificar oportunidades para optimizar y mejorar el rendimiento general sin costes adicionales de hardware. Este libro blanco explica el funcionamiento de los colectivos de IA, define la terminología y revisa las métricas más comunes asociadas a la evaluación comparativa de las redes de IA.
Cómo Keysight ayuda a mejorar los centros de datos de IA
Eliminar los eslabones débiles
Garantice el rendimiento de los componentes mediante pruebas de la capa física y emulaciones de red a nivel de sistema.
Optimizar cada capa
Modele diseños de centros de datos, valide equipos de red a escala de IA y ajuste el rendimiento a nivel de sistema.
Ampliar la capacidad de IA
Maximice el rendimiento del centro de datos con emulaciones reales de protocolos, aplicaciones y redes.
Descubra nuestras soluciones más recientes para centros de datos con IA
Optimice la infraestructura de IA con KAI Data Center Builder
Evalúe el rendimiento del centro de datos de IA con una fidelidad sin precedentes. KAI Data Center Builder emula la combinación de comunicaciones colectivas y algoritmos utilizados para construir un gran modelo de aprendizaje (LLM), lo que facilita la validación de la infraestructura de red y los tejidos de IA mediante pruebas en todo el sistema.
Maximice la fiabilidad de Ethernet con comprobadores de sobremesa de alta velocidad
Pruebe la última generación de redes e interconexiones optimizadas para IA. Con una cobertura completa de pruebas de capa 1-3 y soporte de hasta 40 W por puerto, el comprobador de rendimiento de redes e interconexiones 1.6T de Keysight ofrece capacidades de pruebas Ethernet de vanguardia para fabricantes de conmutadores e hiperescaladores por igual.
Validación de interconexiones AI con osciloscopios de muestreo DCA-M
Maximice la fiabilidad de la red con osciloscopios de muestreo de 224 Gb/s que ofrecen una precisión óptica y una eficacia de pruebas de transceptores inigualables. Pruebe equipos de red 800G / 1,6T preparados para IA con software de pruebas ópticas que agiliza las pruebas de fabricación de transceptores ópticos de gran volumen.
Asista a nuestro evento AI Showcase
Aprenda a diseñar, validar y escalar centros de datos de IA sin costosos recursos de GPU. Descubra nuevas formas de maximizar el rendimiento con herramientas que funcionan desde la capa física hasta la capa de aplicación, todo ello mientras participa en preguntas y respuestas en directo con los mejores ingenieros de Keysight que trabajan en la vanguardia de la innovación en IA.
Explore las configuraciones de prueba preparadas para la IA
Probar las redes de centros de datos de IA
Emule cargas de trabajo de IA para comparar equipos de red y validar tejidos de IA / ML.
Validar interconexiones Ethernet
Garantice la transmisión de datos de alta calidad y la corrección de errores mediante pruebas de fiabilidad y rendimiento.
Optimización de las pruebas de transceptores ópticos de 1,6T
Escala la producción de transceptores ópticos de 1,6T con mediciones rápidas y eficaces de la dispersión del transmisor y TDECQ.
Emular las cargas de trabajo del centro de datos de IA
Optimice la infraestructura para el rendimiento del entrenamiento de IA con una metodología de pruebas coherente y escalable.
Análisis de señales del receptor PAM4
Utiliza el análisis de errores para conocer mejor las señales del receptor PAM4.
Analizar la integridad de la señal PCB
Reduzca los riesgos de integridad de la señal en una PCB digital de alta velocidad mediante la detección y el diagnóstico de diafonía, fluctuación, ruido vertical y ruido de fase.
Realice la validación del protocolo PCle® 6.0
Lograr la validación de protocolos en las capas física, de enlace de datos y de transacción.
Evaluar el rendimiento del FEC
Pruebe los enlaces Ethernet de alta velocidad evaluando el mecanismo de corrección de errores.
Más información sobre las pruebas de los centros de datos de IA
Preguntas más frecuentes: Centros de datos de IA
Un centro de datos de IA es un tipo único de instalación informática, construida específicamente para dar soporte a aplicaciones de inteligencia artificial (IA). Los centros de datos de IA utilizan herramientas robustas, como unidades de procesamiento gráfico (GPU) y unidades de procesamiento tensorial (TPU), que les permiten procesar grandes volúmenes de tráfico, entrenar grandes modelos de aprendizaje (LLM) y ejecutar consultas de usuario, un término comúnmente conocido como "inferencia".
Se están construyendo centros de datos de IA en todo el mundo para satisfacer la creciente demanda. Sin embargo, la mayoría de ellos se encuentran en Estados Unidos, concretamente en Texas, California y Virginia.
Los centros de datos preparados para la IA tienen varias características distintivas:
- Hardware: GPU y TPU de alto rendimiento que aceleran la computación de la IA.
- Almacenamiento: Sistemas de almacenamiento de alta velocidad y gran capacidad que gestionan las enormes cantidades de datos necesarios para el entrenamiento y la inferencia de la IA.
- Refrigeración: La infraestructura de IA genera mucho calor, por lo que los centros de datos preparados para la IA necesitan tecnologías de refrigeración avanzadas como la refrigeración líquida y la refrigeración de precisión para evitar el sobrecalentamiento.
- Escalado: Los centros de datos de IA deben escalar los recursos de forma eficiente en función de las demandas fluctuantes de las tareas de IA.
- Redes: las conexiones de gran ancho de banda y baja latencia son cruciales para el procesamiento de datos y la comunicación en tiempo real.
- Seguridad: Unas sólidas medidas de seguridad y una infraestructura fiable garantizan la protección y la disponibilidad frente a toda una serie de ciberataques específicos de la IA.
Mientras que los centros de datos tradicionales gestionan una amplia gama de tareas informáticas generales, los centros de datos de IA están optimizados para procesar grandes volúmenes de datos, entrenar grandes modelos de aprendizaje e inferir consultas de los usuarios. Los centros de datos tradicionales utilizan CPU para tareas informáticas generales y arquitecturas de red estándar para transferencias de datos entre almacenamiento, servidores y entornos en la nube, mientras que los centros de datos de IA se basan en GPU, TPU y redes de alta velocidad y baja latencia para gestionar el rápido movimiento de datos entre procesadores.
Los centros de datos de IA gestionan una gran variedad de cargas de trabajo, cada una de ellas con requisitos únicos de computación y almacenamiento. Algunos de los tipos más comunes de cargas de trabajo son los siguientes:
- Cargas de trabajo de procesamiento de datos
- Cargas de trabajo de aprendizaje automático
- Cargas de trabajo de aprendizaje profundo
- Cargas de trabajo de procesamiento del lenguaje natural (PLN)
- Cargas de trabajo de IA generativa
- Cargas de trabajo de visión artificial
Los centros de datos de IA utilizan múltiples estrategias para una gestión eficiente de los datos, incluidos sistemas de almacenamiento de alto rendimiento como las SSD NVMe (para garantizar un acceso y una recuperación rápidos de los datos), la organización de los datos en niveles que los mueve entre diferentes niveles de almacenamiento (en función de los patrones de uso) y técnicas de compresión y deduplicación de datos que ahorran espacio de almacenamiento y mejoran la eficiencia.
Los centros de datos optimizados para IA emplean hardware especializado para acelerar la formación y la inferencia. Estos son algunos de los componentes más comunes:
- Unidades de procesamiento gráfico (GPU): Essential para tareas de procesamiento paralelo, que suelen ser necesarias en las aplicaciones de inteligencia artificial.
- Unidades de procesamiento tensorial (TPU): Diseñadas para tareas de aprendizaje automático, ofrecen formación e inferencia de alto rendimiento para modelos de IA.
- Almacenamiento optimizado para IA: Las soluciones de almacenamiento de alto rendimiento, como las SSD NVMe, ayudan a gestionar grandes conjuntos de datos con una recuperación eficiente.
- Infraestructura de red: Infiniband, Ethernet y NVIDIA Spectrum-X proporcionan comunicaciones de alta velocidad, reducen los cuellos de botella y mejoran el rendimiento.
- Sistemas de refrigeración: Las tecnologías Advanced , como la refrigeración líquida, ayudan a gestionar la eficiencia térmica en todos los equipos e infraestructuras de red.
Las GPU y TPU aceleran el rendimiento en los centros de datos de IA al procesar de forma eficiente las intensas demandas computacionales de las cargas de trabajo de IA. Estas son algunas de las principales ventajas que ofrecen:
- Reducción del tiempo de entrenamiento: Las GPU y TPU acortan el tiempo de entrenamiento de los modelos de IA, lo que facilita el desarrollo y la implantación de aplicaciones de IA con rapidez y eficiencia.
- Eficiencia energética: Las GPU y TPU son eficientes desde el punto de vista energético, lo que ayuda a los hiperescaladores a gestionar los costes operativos y el impacto medioambiental.
- Capacidades mejoradas: Las GPU y TPU ayudan a los centros de datos de IA a soportar modelos de IA más complejos y avanzados, impulsando la innovación en diversos sectores.
Los ciclos de cálculo de la IA generan grandes cantidades de calor. Por eso, los centros de datos de IA necesitan soluciones de refrigeración avanzadas para gestionar y compensar el calor. Estas son algunas de las técnicas más comunes que utilizan los centros de datos de IA para la refrigeración:
- Refrigeración líquida: El refrigerante líquido circula directamente por las fuentes de calor, como las GPU y las TPU.
- Refrigeración por inmersión: Los componentes informáticos se sumergen en un fluido dieléctrico, que absorbe el calor con más eficacia que el aire.
- Intercambiadores de calor de puerta trasera: Sistemas de refrigeración que se acoplan a la parte trasera de los racks de servidores y que utilizan refrigeración líquida para eliminar el calor directamente del aire de salida del rack.
Los centros de datos de IA suelen emplear múltiples estrategias para garantizar la escalabilidad:
- Modularidad: Los centros de datos de IA utilizan componentes modulares que pueden ampliarse a medida que crece la demanda, lo que permite un escalado incremental sin tiempos de inactividad significativos.
- Refrigeración: La refrigeración eficiente es esencial para que los centros de datos de IA mantengan el rendimiento y la fiabilidad. La refrigeración líquida y la gestión impulsada por la IA pueden ayudar a optimizar el uso de la energía y soportar un escalado adicional.
- Gestión de la IA: La IA puede ayudar a predecir y gestionar las cargas de trabajo, optimizar los recursos y mejorar la eficiencia del centro de datos. Este enfoque proactivo ayuda a los hiperescaladores a adaptarse a las demandas fluctuantes y mantener un rendimiento óptimo.
La computación de borde puede mejorar el rendimiento, reducir la latencia y optimizar el uso de recursos en los centros de datos de IA. La computación de borde ofrece procesamiento de datos en tiempo real, ya que la inferencia puede tener lugar más cerca de su fuente, lo que minimiza la distancia que deben recorrer los datos, optimizando el ancho de banda y reduciendo la latencia general.
Los hiperescaladores emplean varias estrategias innovadoras para garantizar un consumo energético eficiente en los centros de datos de IA:
- Renovables: Los hiperescaladores recurren cada vez más a fuentes de energía renovables, como la solar y la eólica. Estas fuentes sostenibles reducen la huella de carbono y garantizan un suministro sostenible de energía.
- Refrigeración: La gestión térmica es crucial para reducir el consumo de energía en los centros de datos de IA. Por eso, los hiperescaladores están invirtiendo en refrigeración líquida y gestión de la refrigeración basada en IA para garantizar un uso eficiente de la energía.
- Infraestructura: La disposición y el diseño de los centros de datos de IA desempeñan un papel fundamental en el consumo y la eficiencia energéticos. Estrategias como la contención de pasillos calientes y fríos, la ubicación ideal de los servidores y un flujo de aire adecuado pueden mejorar la eficiencia energética.
Los centros de datos de IA exigen un enfoque de seguridad especializado para protegerse de ciertas vulnerabilidades. Por ejemplo, los grandes modelos de aprendizaje son especialmente susceptibles a la inyección puntual y a los ataques de adversarios, en los que las entradas maliciosas podrían engañar a los modelos de IA. Por eso son fundamentales estrategias de seguridad como las pruebas continuas (con una aplicación y una herramienta de pruebas de seguridad), el control de acceso (incluida la autenticación multifactor y el control de acceso basado en roles) y las auditorías de seguridad rutinarias.
Los centros de datos de IA están diseñados específicamente para satisfacer los exigentes requisitos del aprendizaje profundo y el aprendizaje automático:
- El hardware de red de alto rendimiento, como las GPU, las TPU y los aceleradores de IA, gestiona los complejos cálculos que implica el entrenamiento de modelos para el aprendizaje automático y el aprendizaje profundo.
- Las interconexiones de gran ancho de banda garantizan intercambios de datos eficientes y de alta velocidad entre los nodos de almacenamiento y cálculo.
- La infraestructura escalable se adapta a las crecientes demandas de potencia de cálculo y almacenamiento, algo esencial para los complejos modelos de IA y los conjuntos de datos cada vez más grandes.
Hay varios hiperescaladores y proveedores de IA que construyen y mantienen centros de datos de IA en todo el mundo. Algunos de los mayores proveedores son Amazon Web Services, Google, OpenAI, Apple y Meta.
¿Necesita ayuda o tiene alguna pregunta?