Ottimizzare l'integrità e l'efficienza energetica dei data center AI

Nei data center AI la gestione dell'energia è importante quanto le prestazioni. Tuttavia, mentre i server e gli switch rack di fascia alta utilizzano chip e interconnessioni di prim'ordine, la diafonia e le interferenze elettromagnetiche possono causare problemi di gestione dell'alimentazione che, in ultima analisi, possono ostacolare la capacità di scalare di un data center AI. Senza strumenti versatili di automazione della progettazione e di misurazione, è estremamente difficile simulare le reti di distribuzione dell'energia, identificare le cause alla radice dei problemi di alimentazione e, infine, garantire l'efficienza energetica. 

Impedire che i problemi di integrità dell'alimentazione mettano a rischio i data center dell'IA

Semplificate l'analisi delle reti di distribuzione dell'energia, prevedete l'affidabilità e ottimizzate le prestazioni termiche fin dalle prime fasi di progettazione, semplificando i flussi di lavoro per l'integrità dell'alimentazione.

Analizzare il rumore, il ripple e la diafonia con un'accuratezza senza pari

Identificate ed eliminate le cause alla radice dei problemi di integrità dell'alimentazione più difficili con strumenti di test e misura versatili, compatti e ad alte prestazioni.

Scalare la capacità del carico di lavoro AI riducendo il consumo energetico

Ottimizzare l'efficienza energetica dei data center AI migliorando l'integrità, la gestione e l'erogazione dell'energia nelle apparecchiature e nell'infrastruttura di rete.

Webinar: Convalidare l'integrità dell'alimentazione con gli oscilloscopi

Scoprite i flussi di lavoro di base per la misurazione dell'integrità dell'alimentazione, imparando a conoscere l'evoluzione dei semiconduttori e degli alimentatori a commutazione. Scoprite i tipi di sonde di misura e di software per oscilloscopi necessari per eseguire il debug dei problemi di rumore delle linee di alimentazione ad alta corrente e bassa tensione.

Icona Rete Distribuita

Domande frequenti: Alimentazione dei centri dati AI

I data center AI stanno registrando una crescita esponenziale della domanda di energia. Secondo Wells Fargo, l'utilizzo di energia per l'IA potrebbe raggiungere 652 terawattora (TWh) entro il 2030, con un aumento dell'8.050% rispetto ai livelli del 2024. Questa impennata è determinata dai carichi di lavoro ad alta intensità di calcolo, come l'addestramento e l'inferenza dei modelli, che vengono eseguiti su rack densi di GPU e TPU. A differenza dei data center tradizionali, i carichi di lavoro dell'intelligenza artificiale richiedono un'erogazione continua di energia ad alte densità di corrente, spesso superando i limiti dell'integrità energetica e della progettazione termica.

I principali consumatori di energia includono:

  • Acceleratori come GPU e TPU (per l'addestramento e l'inferenza)
  • Sottosistemi di memoria (ad esempio, moduli HBM / DDR)
  • Apparecchiature di rete per il movimento di dati ad alta larghezza di banda
  • Sistemi di raffreddamento per dissipare il calore generato da carichi di lavoro densi di IA

Ogni watt erogato deve essere stabile e privo di ondulazioni, motivo per cui strumenti come gli oscilloscopi di conformità in tempo reale con sonde per le rotaie di alimentazione e software trifase vengono utilizzati per convalidare l'integrità dell'alimentazione a ogni livello, dai regolatori di tensione a livello di scheda alla distribuzione su rack.

I carichi di lavoro dell'intelligenza artificiale non sono solo pesanti dal punto di vista dei calcoli, ma sono anche intensivi, paralleli e termici. L'addestramento di modelli di grandi dimensioni comporta spesso picchi di carico che mettono a dura prova sia i sistemi di alimentazione che quelli di raffreddamento. Ciò richiede il monitoraggio e l'analisi in tempo reale dei margini di tensione, dei picchi di corrente e del ripple. Il software di analisi dell'alimentazione di Keysight, gli strumenti EMI condotti e SIPro aiutano gli ingegneri a rilevare le anomalie di alimentazione e a perfezionare i layout delle schede per garantire un'alimentazione stabile sotto stress. Questi sforzi sono fondamentali per ottimizzare le operazioni, prevenire i guasti hardware e ridurre l'uso inefficiente dell'energia durante l'addestramento dell'IA o i cicli di inferenza in tempo reale.

I data center leader adottano strategie sia a livello hardware che a livello software, tra cui:

  • Validazione dell'integrità di potenza con oscilloscopi di conformità in tempo reale e sonde EMI
  • Bilanciamento delle fasi e rilevamento delle armoniche con strumenti come il software trifase
  • Simulazione e modellazione con strumenti EDA per la preconvalida dei progetti delle schede e dei percorsi di alimentazione.
  • Regolazione e programmazione del carico di lavoro per ridurre i picchi di potenza nei cicli di inferenza o di addestramento.

Inoltre, le piattaforme di gestione dei dati di progettazione e dei dati IP di Keysight consentono ai team di analizzare, versionare e ottimizzare i dati sull'alimentazione nei team di chip e di sistema. Queste informazioni supportano l'iterazione dei progetti e la conformità agli obiettivi di efficienza energetica.

Le principali sfide per la scalabilità dell'infrastruttura energetica dell'IA includono:

  • Carico termico da rack di calcolo ad alta densità
  • Degrado dell'integrità di potenza dovuto a componenti di commutazione più veloci e margini più sottili
  • Picchi di domanda imprevedibili da modelli di intelligenza artificiale con allocazione dinamica delle risorse
  • Vincoli della rete quando la domanda supera l'infrastruttura tradizionale

Per affrontare queste sfide sono necessarie sia la convalida (ad esempio, l'analisi del ripple e delle EMI condotte) sia l'innovazione architettonica, come l'erogazione di potenza disaggregata, il controllo termico AI-aware e l'integrazione della telemetria di potenza in tempo reale nei cruscotti operativi.

Volete aiuto o avete domande?