Liberar el potencial de la IA

Un centro de datos de IA es tan fiable como su eslabón más débil. En la vanguardia del rendimiento, cada chip, cable, interconexión, conmutador, servidor y GPU representa tanto un potencial como un riesgo. Los componentes individuales no solo deben funcionar de forma independiente, sino que también deben trabajar cohesionados como un sistema sometido a una demanda incesante.

La creación de redes capaces de responder a las exigencias de las cargas de trabajo de IA implica validar cada componente, conexión y configuración. Con lo que está en juego y a esta escala, incluso el más pequeño aumento de la eficiencia, mejora operativa o mejora del rendimiento puede generar importantes beneficios, reduciendo las interrupciones y evitando fallos en cascada.

Centros de datos de IA: Un punto de inflexión técnico

Velocidades ópticas del centro de datos AI

Ethernet
Las velocidades de los centros de datos pasarán de 400 / 800G a Ethernet de alta velocidad de 1,6 / 3,2T.

Velocidades de memoria del centro de datos de IA

Memoria
DDR5 está dejando paso a DDR6 y HBM3, con velocidades de hasta 12,8 GT/s.

Velocidades Ethernet del centro de datos AI

Óptica
Las velocidades de transferencia de 112 Gb/s darán paso a los estándares de 224 y 448 Gb/s.

Icono del transceptor AI

PCIe® / CXL
PCIe® 7 actualizará PCIe® 5 y PCIe® 6, ya que las transferencias pasan de 32 a 128 GT/s.

Cómo Keysight ayuda a mejorar los centros de datos de IA

Eliminar los eslabones débiles

Garantice el rendimiento de los componentes mediante pruebas de la capa física y emulaciones de red a nivel de sistema.

Optimizar cada capa

Modele diseños de centros de datos, valide equipos de red a escala de IA y ajuste el rendimiento a nivel de sistema.

Ampliar la capacidad de IA

Maximice el rendimiento del centro de datos con emulaciones reales de protocolos, aplicaciones y redes.

Asista a nuestro evento AI Showcase

Aprenda a diseñar, validar y escalar centros de datos de IA sin costosos recursos de GPU. Descubra nuevas formas de maximizar el rendimiento con herramientas que funcionan desde la capa física hasta la capa de aplicación, todo ello mientras participa en preguntas y respuestas en directo con los mejores ingenieros de Keysight que trabajan en la vanguardia de la innovación en IA.

Icono de red distribuida

Más información sobre las pruebas de los centros de datos de IA

Preguntas más frecuentes: Centros de datos de IA

Un centro de datos de IA es un tipo único de instalación informática, construida específicamente para dar soporte a aplicaciones de inteligencia artificial (IA). Los centros de datos de IA utilizan herramientas robustas, como unidades de procesamiento gráfico (GPU) y unidades de procesamiento tensorial (TPU), que les permiten procesar grandes volúmenes de tráfico, entrenar grandes modelos de aprendizaje (LLM) y ejecutar consultas de usuario, un término comúnmente conocido como "inferencia".

Se están construyendo centros de datos de IA en todo el mundo para satisfacer la creciente demanda. Sin embargo, la mayoría de ellos se encuentran en Estados Unidos, concretamente en Texas, California y Virginia.

Los centros de datos preparados para la IA tienen varias características distintivas:

  • Hardware: GPU y TPU de alto rendimiento que aceleran la computación de la IA.
  • Almacenamiento: Sistemas de almacenamiento de alta velocidad y gran capacidad que gestionan las enormes cantidades de datos necesarios para el entrenamiento y la inferencia de la IA.
  • Refrigeración: La infraestructura de IA genera mucho calor, por lo que los centros de datos preparados para la IA necesitan tecnologías de refrigeración avanzadas como la refrigeración líquida y la refrigeración de precisión para evitar el sobrecalentamiento.
  • Escalado: Los centros de datos de IA deben escalar los recursos de forma eficiente en función de las demandas fluctuantes de las tareas de IA.
  • Redes: las conexiones de gran ancho de banda y baja latencia son cruciales para el procesamiento de datos y la comunicación en tiempo real.
  • Seguridad: Unas sólidas medidas de seguridad y una infraestructura fiable garantizan la protección y la disponibilidad frente a toda una serie de ciberataques específicos de la IA.

Mientras que los centros de datos tradicionales gestionan una amplia gama de tareas informáticas generales, los centros de datos de IA están optimizados para procesar grandes volúmenes de datos, entrenar grandes modelos de aprendizaje e inferir consultas de los usuarios. Los centros de datos tradicionales utilizan CPU para tareas informáticas generales y arquitecturas de red estándar para transferencias de datos entre almacenamiento, servidores y entornos en la nube, mientras que los centros de datos de IA se basan en GPU, TPU y redes de alta velocidad y baja latencia para gestionar el rápido movimiento de datos entre procesadores.

Los centros de datos de IA gestionan una gran variedad de cargas de trabajo, cada una de ellas con requisitos únicos de computación y almacenamiento. Algunos de los tipos más comunes de cargas de trabajo son los siguientes:

  • Cargas de trabajo de procesamiento de datos
  • Cargas de trabajo de aprendizaje automático
  • Cargas de trabajo de aprendizaje profundo
  • Cargas de trabajo de procesamiento del lenguaje natural (PLN)
  • Cargas de trabajo de IA generativa
  • Cargas de trabajo de visión artificial

Los centros de datos de IA utilizan múltiples estrategias para una gestión eficiente de los datos, incluidos sistemas de almacenamiento de alto rendimiento como las SSD NVMe (para garantizar un acceso y una recuperación rápidos de los datos), la organización de los datos en niveles que los mueve entre diferentes niveles de almacenamiento (en función de los patrones de uso) y técnicas de compresión y deduplicación de datos que ahorran espacio de almacenamiento y mejoran la eficiencia.

Los centros de datos optimizados para IA emplean hardware especializado para acelerar la formación y la inferencia. Estos son algunos de los componentes más comunes:

  • Unidades de procesamiento gráfico (GPU): Essential para tareas de procesamiento paralelo, que suelen ser necesarias en las aplicaciones de inteligencia artificial.
  • Unidades de procesamiento tensorial (TPU): Diseñadas para tareas de aprendizaje automático, ofrecen formación e inferencia de alto rendimiento para modelos de IA.
  • Almacenamiento optimizado para IA: Las soluciones de almacenamiento de alto rendimiento, como las SSD NVMe, ayudan a gestionar grandes conjuntos de datos con una recuperación eficiente.
  • Infraestructura de red: Infiniband, Ethernet y NVIDIA Spectrum-X proporcionan comunicaciones de alta velocidad, reducen los cuellos de botella y mejoran el rendimiento.
  • Sistemas de refrigeración: Las tecnologías Advanced , como la refrigeración líquida, ayudan a gestionar la eficiencia térmica en todos los equipos e infraestructuras de red.

Las GPU y TPU aceleran el rendimiento en los centros de datos de IA al procesar de forma eficiente las intensas demandas computacionales de las cargas de trabajo de IA. Estas son algunas de las principales ventajas que ofrecen:

  • Reducción del tiempo de entrenamiento: Las GPU y TPU acortan el tiempo de entrenamiento de los modelos de IA, lo que facilita el desarrollo y la implantación de aplicaciones de IA con rapidez y eficiencia.
  • Eficiencia energética: Las GPU y TPU son eficientes desde el punto de vista energético, lo que ayuda a los hiperescaladores a gestionar los costes operativos y el impacto medioambiental.
  • Capacidades mejoradas: Las GPU y TPU ayudan a los centros de datos de IA a soportar modelos de IA más complejos y avanzados, impulsando la innovación en diversos sectores.

Los ciclos de cálculo de la IA generan grandes cantidades de calor. Por eso, los centros de datos de IA necesitan soluciones de refrigeración avanzadas para gestionar y compensar el calor. Estas son algunas de las técnicas más comunes que utilizan los centros de datos de IA para la refrigeración:

  • Refrigeración líquida: El refrigerante líquido circula directamente por las fuentes de calor, como las GPU y las TPU.
  • Refrigeración por inmersión: Los componentes informáticos se sumergen en un fluido dieléctrico, que absorbe el calor con más eficacia que el aire.
  • Intercambiadores de calor de puerta trasera: Sistemas de refrigeración que se acoplan a la parte trasera de los racks de servidores y que utilizan refrigeración líquida para eliminar el calor directamente del aire de salida del rack.

Los centros de datos de IA suelen emplear múltiples estrategias para garantizar la escalabilidad:

  • Modularidad: Los centros de datos de IA utilizan componentes modulares que pueden ampliarse a medida que crece la demanda, lo que permite un escalado incremental sin tiempos de inactividad significativos.
  • Refrigeración: La refrigeración eficiente es esencial para que los centros de datos de IA mantengan el rendimiento y la fiabilidad. La refrigeración líquida y la gestión impulsada por la IA pueden ayudar a optimizar el uso de la energía y soportar un escalado adicional.
  • Gestión de la IA: La IA puede ayudar a predecir y gestionar las cargas de trabajo, optimizar los recursos y mejorar la eficiencia del centro de datos. Este enfoque proactivo ayuda a los hiperescaladores a adaptarse a las demandas fluctuantes y mantener un rendimiento óptimo.

La computación de borde puede mejorar el rendimiento, reducir la latencia y optimizar el uso de recursos en los centros de datos de IA. La computación de borde ofrece procesamiento de datos en tiempo real, ya que la inferencia puede tener lugar más cerca de su fuente, lo que minimiza la distancia que deben recorrer los datos, optimizando el ancho de banda y reduciendo la latencia general.

Los hiperescaladores emplean varias estrategias innovadoras para garantizar un consumo energético eficiente en los centros de datos de IA:

  • Renovables: Los hiperescaladores recurren cada vez más a fuentes de energía renovables, como la solar y la eólica. Estas fuentes sostenibles reducen la huella de carbono y garantizan un suministro sostenible de energía.
  • Refrigeración: La gestión térmica es crucial para reducir el consumo de energía en los centros de datos de IA. Por eso, los hiperescaladores están invirtiendo en refrigeración líquida y gestión de la refrigeración basada en IA para garantizar un uso eficiente de la energía.
  • Infraestructura: La disposición y el diseño de los centros de datos de IA desempeñan un papel fundamental en el consumo y la eficiencia energéticos. Estrategias como la contención de pasillos calientes y fríos, la ubicación ideal de los servidores y un flujo de aire adecuado pueden mejorar la eficiencia energética.

Los centros de datos de IA exigen un enfoque de seguridad especializado para protegerse de ciertas vulnerabilidades. Por ejemplo, los grandes modelos de aprendizaje son especialmente susceptibles a la inyección puntual y a los ataques de adversarios, en los que las entradas maliciosas podrían engañar a los modelos de IA. Por eso son fundamentales estrategias de seguridad como las pruebas continuas (con una aplicación y una herramienta de pruebas de seguridad), el control de acceso (incluida la autenticación multifactor y el control de acceso basado en roles) y las auditorías de seguridad rutinarias.

Los centros de datos de IA están diseñados específicamente para satisfacer los exigentes requisitos del aprendizaje profundo y el aprendizaje automático:

  • El hardware de red de alto rendimiento, como las GPU, las TPU y los aceleradores de IA, gestiona los complejos cálculos que implica el entrenamiento de modelos para el aprendizaje automático y el aprendizaje profundo.
  • Las interconexiones de gran ancho de banda garantizan intercambios de datos eficientes y de alta velocidad entre los nodos de almacenamiento y cálculo.
  • La infraestructura escalable se adapta a las crecientes demandas de potencia de cálculo y almacenamiento, algo esencial para los complejos modelos de IA y los conjuntos de datos cada vez más grandes.

Hay varios hiperescaladores y proveedores de IA que construyen y mantienen centros de datos de IA en todo el mundo. Algunos de los mayores proveedores son Amazon Web Services, Google, OpenAI, Apple y Meta.

¿Necesita ayuda o tiene alguna pregunta?