Liberare il potenziale dell'IA

Un data center AI è affidabile solo quanto il suo anello più debole. All'avanguardia delle prestazioni, ogni chip, cavo, interconnessione, switch, server e GPU rappresenta sia un potenziale che un rischio. Non solo i singoli componenti devono funzionare in modo indipendente, ma devono anche lavorare in modo coeso come un sistema sotto una domanda incessante.

Costruire reti in grado di gestire le esigenze dei carichi di lavoro dell'intelligenza artificiale significa convalidare ogni componente, connessione e configurazione. Con una posta in gioco e una scala così elevata, anche il più piccolo guadagno di efficienza, il miglioramento operativo o il potenziamento delle prestazioni possono generare ritorni significativi, riducendo le interruzioni e prevenendo i guasti a cascata.

Centri dati AI: Un punto di inflessione tecnico

Velocità ottiche dei data center AI

Ethernet
Le velocità dei data center passeranno da 400/800G a 1,6/3,2T Ethernet ad alta velocità.

Velocità di memoria dei data center AI

Memoria
Le DDR5 stanno lasciando il posto alle DDR6 e alle HBM3, con velocità fino a 12,8 GT/s.

Velocità Ethernet dei Data Center AI

Ottica
Le velocità di trasferimento di 112 Gb/s lasceranno il posto agli standard di 224 e 448 Gb/s.

Icona Ricetrasmettitore AI

PCIe® / CXL
PCIe® 7 aggiornerà PCIe® 5 e PCIe® 6, mentre i trasferimenti passeranno da 32 a 128 GT/s.

Come Keysight contribuisce a migliorare i data center AI

Eliminare gli anelli deboli

Garantire le prestazioni a livello di componente con test a livello fisico ed emulazioni di rete a livello di sistema.

Ottimizzare ogni strato

Modellare i progetti dei data center, convalidare le apparecchiature di rete in scala AI e mettere a punto le prestazioni a livello di sistema.

Scalare la capacità dell'intelligenza artificiale

Massimizzate le prestazioni dei data center con emulazioni di protocolli, applicazioni e reti reali.

Partecipate al nostro evento di presentazione dell'intelligenza artificiale

Imparare a progettare, convalidare e scalare i data center AI senza costose risorse GPU. Scoprite nuovi modi per massimizzare le prestazioni con strumenti che lavorano dal livello fisico a quello applicativo, il tutto partecipando a domande e risposte dal vivo con i migliori ingegneri Keysight che lavorano in prima linea nell'innovazione dell'IA.

Icona Rete Distribuita

Per saperne di più sul test dei data center AI

Domande frequenti: Centri dati AI

Un data center AI è un tipo unico di struttura di elaborazione, costruito appositamente per supportare le applicazioni di intelligenza artificiale (AI). I data center AI utilizzano strumenti robusti, tra cui le unità di elaborazione grafica (GPU) e le unità di elaborazione dei tensori (TPU), che consentono di elaborare grandi volumi di traffico, addestrare modelli di apprendimento di grandi dimensioni (LLM) ed eseguire le query degli utenti, un termine comunemente noto come "inferenza".

I data center AI vengono costruiti in tutto il mondo per soddisfare la crescente domanda. Tuttavia, la maggior parte dei data center AI si trova negli Stati Uniti, in particolare in Texas, California e Virginia.

I data center pronti per l'AI presentano diverse caratteristiche distintive:

  • Hardware: GPU e TPU ad alte prestazioni che accelerano il calcolo dell'intelligenza artificiale.
  • Storage: Sistemi di archiviazione ad alta velocità e grande capacità che gestiscono le enormi quantità di dati necessari per l'addestramento e l'inferenza dell'intelligenza artificiale.
  • Raffreddamento: L'infrastruttura AI genera molto calore, quindi i data center AI-ready necessitano di tecnologie di raffreddamento avanzate come il raffreddamento a liquido e il raffreddamento di precisione per evitare il surriscaldamento.
  • Scalabilità: I data center AI devono scalare le risorse in modo efficiente in base alle richieste fluttuanti delle attività AI.
  • Networking: connessioni ad alta larghezza di banda e bassa latenza sono fondamentali per l'elaborazione e la comunicazione dei dati in tempo reale.
  • Sicurezza: Misure di sicurezza solide e infrastrutture affidabili garantiscono protezione e disponibilità contro una serie di cyberattacchi specifici per l'IA.

Mentre i data center tradizionali gestiscono un'ampia gamma di attività di elaborazione generale, i data center AI sono ottimizzati per l'elaborazione di grandi volumi di dati, l'addestramento di modelli di apprendimento di grandi dimensioni e l'inferenza rispetto alle query degli utenti. I data center tradizionali utilizzano le CPU per le attività di elaborazione generali e le architetture di rete standard per il trasferimento dei dati tra storage, server e ambienti cloud, mentre i data center di intelligenza artificiale si affidano a GPU, TPU e reti ad alta velocità/bassa latenza per gestire il movimento rapido dei dati tra i processori.

I data center di intelligenza artificiale gestiscono una varietà di carichi di lavoro, ciascuno con requisiti unici di elaborazione e archiviazione. Alcuni dei tipi più comuni di carichi di lavoro sono i seguenti:

  • Carichi di lavoro dell'elaborazione dati
  • Carichi di lavoro di apprendimento automatico
  • Carichi di lavoro per l'apprendimento profondo
  • Carichi di lavoro di elaborazione del linguaggio naturale (NLP)
  • Carichi di lavoro di IA generativa
  • Carichi di lavoro della visione artificiale

I data center di intelligenza artificiale utilizzano diverse strategie per una gestione efficiente dei dati, tra cui sistemi di archiviazione ad alte prestazioni come le unità SSD NVMe (per garantire un accesso e un recupero rapidi dei dati), il data tiering che sposta i dati tra diversi livelli di archiviazione (in base ai modelli di utilizzo) e le tecniche di compressione e deduplicazione dei dati che consentono di risparmiare spazio di archiviazione e migliorare l'efficienza.

I data center ottimizzati per l'intelligenza artificiale utilizzano hardware specializzato per accelerare la formazione e l'inferenza. Ecco alcuni dei componenti più comuni:

  • Unità di elaborazione grafica (GPU): Essential per le attività di elaborazione parallela, comunemente richieste nelle applicazioni di intelligenza artificiale.
  • Unità di elaborazione dei tensori (TPU): Progettate per attività di apprendimento automatico, offrono formazione e inferenza ad alte prestazioni per i modelli di intelligenza artificiale.
  • Storage ottimizzato per l'AI: Soluzioni di archiviazione ad alte prestazioni come le unità SSD NVMe aiutano a gestire grandi insiemi di dati con un recupero efficiente.
  • Infrastruttura di rete: Infiniband, Ethernet e NVIDIA Spectrum-X forniscono comunicazioni ad alta velocità, riducono i colli di bottiglia e migliorano il throughput.
  • Sistemi di raffreddamento: le tecnologie Advanced , come il raffreddamento a liquido, contribuiscono a garantire l'efficienza termica delle apparecchiature e delle infrastrutture di rete.

Le GPU e le TPU accelerano le prestazioni dei data center AI elaborando in modo efficiente le richieste di calcolo intensive dei carichi di lavoro AI. Ecco alcuni dei principali vantaggi che offrono:

  • Riduzione dei tempi di addestramento: Le GPU e le TPU riducono i tempi di addestramento dei modelli di IA, facilitando lo sviluppo e la distribuzione di applicazioni di IA con velocità ed efficienza.
  • Efficienza energetica: Le GPU e le TPU sono efficienti dal punto di vista energetico e aiutano gli hyperscaler a gestire i costi operativi e l'impatto ambientale.
  • Capacità migliorate: Le GPU e le TPU aiutano i data center AI a supportare modelli AI più complessi e avanzati, promuovendo l'innovazione in diversi settori.

I cicli di calcolo dell'intelligenza artificiale generano enormi quantità di calore. Per questo motivo i data center AI richiedono soluzioni di raffreddamento avanzate per gestire e compensare il calore. Ecco alcune delle tecniche più comuni utilizzate dai data center AI per il raffreddamento:

  • Raffreddamento a liquido: Il liquido di raffreddamento viene fatto circolare direttamente nelle fonti di calore, come le GPU e le TPU.
  • Raffreddamento a immersione: I componenti IT vengono immersi in un fluido dielettrico che assorbe il calore in modo più efficace dell'aria.
  • Scambiatori di calore a porta posteriore: Sistemi di raffreddamento che si collegano al retro dei rack di server e che utilizzano il raffreddamento a liquido per rimuovere il calore direttamente dall'aria di scarico del rack.

I data center di intelligenza artificiale impiegano in genere diverse strategie per garantire la scalabilità:

  • Modularità: I data center AI utilizzano componenti modulari che possono essere espansi in base all'aumento della domanda, consentendo una scalabilità incrementale senza tempi di inattività significativi.
  • Raffreddamento: Un raffreddamento efficiente è essenziale per i data center AI per mantenere prestazioni e affidabilità. Il raffreddamento a liquido e la gestione guidata dall'intelligenza artificiale possono contribuire a ottimizzare l'uso dell'energia e a supportare l'ulteriore scalabilità.
  • Gestione dell'intelligenza artificiale: L'intelligenza artificiale può aiutare a prevedere e gestire i carichi di lavoro, ottimizzare le risorse e migliorare l'efficienza dei data center. Questo approccio proattivo aiuta gli hyperscaler a scalare in base alle fluttuazioni della domanda e a mantenere prestazioni ottimali.

L'edge computing può migliorare le prestazioni, ridurre la latenza e ottimizzare l'uso delle risorse nei data center di intelligenza artificiale. L'edge computing offre un'elaborazione dei dati in tempo reale, poiché l'inferenza può avvenire più vicino alla fonte, riducendo al minimo la distanza che i dati devono percorrere, ottimizzando la larghezza di banda e riducendo la latenza complessiva.

Gli hyperscaler impiegano diverse strategie innovative per garantire un consumo energetico efficiente nei data center AI:

  • Rinnovabili: Gli iperscaler guardano sempre più alle fonti di energia rinnovabili, tra cui il solare e l'eolico. Queste fonti sostenibili riducono l'impronta di carbonio e garantiscono una fornitura sostenibile di energia.
  • Raffreddamento: La gestione termica è fondamentale per ridurre il consumo energetico nei data center AI. Ecco perché gli hyperscaler stanno investendo nel raffreddamento a liquido e nella gestione del raffreddamento guidata dall'AI per garantire un uso efficiente dell'energia.
  • Infrastruttura: Il layout e la progettazione dei data center AI svolgono un ruolo fondamentale nel consumo e nell'efficienza energetica. Strategie come il contenimento dei corridoi caldi e freddi, il posizionamento ideale dei server e un flusso d'aria adeguato possono migliorare l'efficienza energetica.

I data center di intelligenza artificiale richiedono un approccio di sicurezza specializzato per proteggersi da alcune vulnerabilità. Ad esempio, i modelli di apprendimento di grandi dimensioni sono particolarmente suscettibili agli attacchi di tipo prompt injection e adversarial, in cui input dannosi potrebbero potenzialmente ingannare i modelli di IA. Per questo motivo sono fondamentali strategie di sicurezza come i test continui (con uno strumento di test delle applicazioni e della sicurezza), il controllo degli accessi (compresa l'autenticazione a più fattori e il controllo degli accessi basato sui ruoli) e gli audit di sicurezza di routine.

I data center AI sono costruiti appositamente per supportare gli esigenti requisiti dell'apprendimento profondo e dell'apprendimento automatico:

  • L'hardware di rete ad alte prestazioni, come le GPU, le TPU e gli acceleratori di intelligenza artificiale, gestisce i calcoli complessi coinvolti nell'addestramento dei modelli per l'apprendimento automatico e l'apprendimento profondo.
  • Le interconnessioni ad alta larghezza di banda garantiscono scambi di dati efficienti e ad alta velocità tra i nodi di archiviazione e di calcolo.
  • L'infrastruttura scalabile è in grado di soddisfare le crescenti richieste di potenza di calcolo e di archiviazione, essenziali per i complessi modelli di intelligenza artificiale e per i set di dati sempre più grandi.

Esistono numerosi hyperscaler e fornitori di IA che costruiscono e mantengono centri dati di IA in tutto il mondo. Tra i maggiori fornitori figurano Amazon Web Services, Google, OpenAI, Apple e Meta.

Volete aiuto o avete domande?