Optimizar la integridad y la eficiencia energética del centro de datos de IA

En los centros de datos de IA, la gestión de la energía es tan importante como el rendimiento. Sin embargo, aunque los servidores de gama alta y los conmutadores de rack utilizan los mejores chips e interconexiones, la diafonía y las interferencias electromagnéticas pueden causar problemas de gestión de la energía que, en última instancia, pueden impedir la capacidad de ampliación de un centro de datos de IA. Sin herramientas versátiles de automatización y medición del diseño, resulta extremadamente difícil simular las redes de suministro de energía, identificar las causas fundamentales de los problemas energéticos y, en última instancia, garantizar la eficiencia energética. 

Evite que los problemas de integridad de la energía pongan en peligro los centros de datos de IA

Simplifique el análisis de las redes de suministro de energía, prediga la fiabilidad y optimice el rendimiento térmico en las primeras fases de los diseños, agilizando los flujos de trabajo de integridad de la energía.

Analice el ruido, la ondulación y la diafonía con una precisión inigualable

Identifique y elimine las causas fundamentales de los problemas de integridad eléctrica más difíciles con herramientas de prueba y medición versátiles, compactas y de alto rendimiento.

Aumente la capacidad de la carga de trabajo de IA reduciendo el consumo de energía

Optimice la eficiencia energética del centro de datos de IA mejorando la integridad, la gestión y el suministro de energía a través de los equipos y la infraestructura de red.

Webinar: Validación de la integridad de la alimentación con osciloscopios

Descubra los flujos de trabajo básicos para la medición de la integridad de la potencia mientras aprende sobre la evolución de los semiconductores y las fuentes de alimentación conmutadas. Descubra los tipos de sondas de medición y el software de osciloscopio que necesita para depurar problemas de ruido en el carril de alimentación de alta corriente y baja tensión.

Icono de red distribuida

Preguntas más frecuentes: Alimentación de centros de datos AI

Los centros de datos de IA están experimentando un crecimiento exponencial de la demanda de energía. Según Wells Fargo, el uso energético de la IA puede alcanzar los 652 teravatios-hora (TWh) en 2030, lo que representa un aumento del 8.050% con respecto a los niveles de 2024. Este aumento está impulsado por las cargas de trabajo de cálculo intensivo, como el entrenamiento y la inferencia de modelos, que se ejecutan en densos bastidores de GPU y TPU. A diferencia de los centros de datos tradicionales, las cargas de trabajo de IA requieren un suministro continuo de energía a altas densidades de corriente, lo que a menudo supera los límites de la integridad energética y el diseño térmico.

Los principales consumidores de energía son:

  • Aceleradores como GPU y TPU (para entrenamiento e inferencia)
  • Subsistemas de memoria (por ejemplo, módulos HBM / DDR)
  • Equipos de red para el movimiento de datos de gran ancho de banda
  • Sistemas de refrigeración para disipar el calor generado por las densas cargas de trabajo de IA

Cada vatio suministrado debe ser estable y sin ondulaciones, por lo que se utilizan herramientas como los osciloscopios de conformidad en tiempo real con sondas de carril de alimentación y software trifásico para validar la integridad de la alimentación en todos los niveles, desde los reguladores de tensión a nivel de placa hasta la distribución a escala de rack.

Las cargas de trabajo de la IA no sólo son de alta carga computacional, sino que también son rápidas, paralelas y térmicamente intensas. El entrenamiento de grandes modelos suele provocar picos de carga que sobrecargan los sistemas de suministro y refrigeración. Esto requiere monitorización y análisis en tiempo real de los márgenes de tensión, picos de corriente y ondulación. El software de análisis de potencia de Keysight, las herramientas EMI conducidas y SIPro ayudan a los ingenieros a detectar anomalías de potencia y a refinar los diseños de las placas para garantizar una potencia estable bajo estrés. Estos esfuerzos son fundamentales para optimizar las operaciones, evitar fallos de hardware y reducir el uso ineficiente de energía durante el entrenamiento de IA o los ciclos de inferencia en tiempo real.

Los principales centros de datos aplican estrategias tanto a nivel de hardware como de software:

  • Validación de la integridad de la alimentación mediante osciloscopios de conformidad en tiempo real y sondas EMI
  • Equilibrado de fases y detección de armónicos con herramientas como el software trifásico
  • Simulación y modelado con herramientas EDA para validar previamente los diseños de las placas y las rutas de suministro de energía.
  • Ajuste y programación de la carga de trabajo para reducir los picos de potencia en los ciclos de inferencia o formación.

Además, las plataformas de gestión de datos de diseño e IP de Keysight permiten a los equipos analizar, versionar y optimizar los datos de potencia en todos los equipos de chips y sistemas. Esta información facilita la iteración del diseño y el cumplimiento de los objetivos de eficiencia energética.

Entre los principales retos que plantea la ampliación de la infraestructura energética de la IA figuran los siguientes:

  • Carga térmica de los bastidores informáticos de alta densidad
  • Degradación de la integridad energética debido a componentes de conmutación más rápidos y márgenes más finos.
  • Picos de demanda imprevisibles en modelos de IA con asignación dinámica de recursos
  • Limitaciones de la red: la demanda supera la infraestructura tradicional

Para hacer frente a estos retos se requiere tanto validación (por ejemplo, análisis de ondulación y EMI conducida) como innovación arquitectónica, como suministro de energía desagregado, control térmico consciente de la IA e integración de telemetría de energía en tiempo real en cuadros de mando operativos.

¿Necesita ayuda o tiene alguna pregunta?