Che cosa sta cercando?
Centri dati AI
Liberate la prossima generazione di innovazioni AI
Liberare il potenziale dell'IA
Un data center AI è affidabile solo quanto il suo anello più debole. All'avanguardia delle prestazioni, ogni chip, cavo, interconnessione, switch, server e GPU rappresenta sia un potenziale che un rischio. Non solo i singoli componenti devono funzionare in modo indipendente, ma devono anche lavorare in modo coeso come un sistema sotto una domanda incessante.
Costruire reti in grado di gestire le esigenze dei carichi di lavoro dell'intelligenza artificiale significa convalidare ogni componente, connessione e configurazione. Con una posta in gioco e una scala così elevata, anche il più piccolo guadagno di efficienza, il miglioramento operativo o il potenziamento delle prestazioni possono generare ritorni significativi, riducendo le interruzioni e prevenendo i guasti a cascata.
Centri dati AI: Un punto di inflessione tecnico
Ethernet
Le velocità dei data center passeranno da 400/800G a 1,6/3,2T Ethernet ad alta velocità.
Memoria
Le DDR5 stanno lasciando il posto alle DDR6 e alle HBM3, con velocità fino a 12,8 GT/s.
Ottica
Le velocità di trasferimento di 112 Gb/s lasceranno il posto agli standard di 224 e 448 Gb/s.
PCIe® / CXL
PCIe® 7 aggiornerà PCIe® 5 e PCIe® 6, mentre i trasferimenti passeranno da 32 a 128 GT/s.
Testare i centri dati di intelligenza artificiale: Una sfida a più livelli
Accelerazione della progettazione digitale ad alta velocità nell'era dell'IA
I data center AI richiedono semiconduttori, chipset e progetti digitali ad alta velocità (HSD) pronti per l'AI. Ma le prestazioni all'avanguardia hanno un costo. Velocità e standard sono in continua evoluzione e rimanere al passo con i tempi a volte significa pensare con una o due generazioni di anticipo. Conformarsi ai requisiti di progettazione avanzati significa andare oltre il debug. Soddisfare - o superare - i più recenti standard PCIe®, DDR e CXL richiede strumenti di simulazione avanzati in grado di analizzare i progetti e prevedere i potenziali problemi prima che si verifichino.
Ripensare l'infrastruttura AI per 1,6T e oltre
Con l'adozione da parte dei data center AI di velocità Ethernet 1.6T, i produttori di apparecchiature di rete stanno costruendo nuovi ricetrasmettitori ottici per supportarli. La connettività ad alta velocità, tuttavia, richiede anche una validazione ad alta velocità rispetto alle esigenze del mondo reale delle reti AI. Scalare i test di R&S e di produzione significa andare oltre gli strumenti a basso rumore che misurano il livello fisico, ma anche impiegare test Ethernet a livello di protocollo per convalidare le prestazioni del mondo reale.
Ottimizzazione delle prestazioni e dell'efficienza dei data center AI
Le reti di intelligenza artificiale richiedono più di una convalida a livello di componenti. I test a livello fisico non sono sufficienti. L'interoperabilità, le prestazioni e l'efficienza possono essere misurate solo a livello di sistema, in condizioni di rete reali. La convalida dei componenti dei cluster di IA, l'ottimizzazione dell'efficienza e la scalabilità della capacità richiedono approfondimenti avanzati derivanti dall'emulazione dei carichi di lavoro dell'IA full-stack. Il monitoraggio di metriche come il tempo di completamento dei lavori e la larghezza di banda della comunicazione collettiva aiuta a individuare i colli di bottiglia, a ottimizzare la distribuzione del carico di lavoro dell'intelligenza artificiale e a identificare i problemi a livello di componenti che altrimenti rimarrebbero nascosti.
Massimizzare l'efficienza energetica per scalare i carichi di lavoro AI
Nei data center di intelligenza artificiale, la gestione dell'energia è importante quanto le prestazioni. Tuttavia, mentre i server e gli switch rack di fascia alta utilizzano chip e interconnessioni di prim'ordine, la diafonia e le interferenze elettromagnetiche possono causare problemi di gestione dell'alimentazione che, in ultima analisi, possono ostacolare la capacità di scalare di un data center AI. Senza strumenti versatili di automazione della progettazione e di misurazione, è estremamente difficile simulare le reti di distribuzione dell'energia, identificare le cause alla radice dei problemi di alimentazione e, infine, garantire l'efficienza energetica.
Migliorate le vostre conoscenze sui data center AI
5 strategie per ottimizzare e scalare i data center AI
L'intelligenza artificiale sta trasformando i settori e guidando l'innovazione. Tuttavia, modelli di traffico unici, carichi di lavoro dinamici e pressioni incessanti sulle prestazioni possono trasformare anche i problemi più piccoli in problemi critici.
Leggete questo eBook per scoprire cinque soluzioni pratiche per ottimizzare le prestazioni dei data center AI per le applicazioni moderne.
Bootcamp di rete AI
Unisciti agli ingegneri Keysight per un'immersione profonda nel mondo dei test delle reti AI e della convalida delle implementazioni dei data center AI. Al termine di questo corso, otterrete le conoscenze e la sicurezza necessarie per assumere il controllo di questo nuovo paradigma di rete innovativo e in rapida evoluzione.
Miglioramento della scalabilità nei cluster di data center AI
La vostra infrastruttura di rete è in grado di gestire carichi di lavoro complessi e ad alto traffico per l'addestramento all'intelligenza artificiale? Questo white paper approfondisce il tema della scalabilità dei cluster dei data center AI, identifica le sfide critiche della rete e spiega come garantire reti scalabili e affidabili per le ambizioni AI della vostra organizzazione.
Benchmarking delle operazioni collettive
La misurazione o il benchmarking delle prestazioni della rete in un cluster di IA può aiutare le organizzazioni a identificare le opportunità di ottimizzazione e miglioramento del throughput complessivo senza costi hardware aggiuntivi. Questo white paper spiega il funzionamento dei collettivi di IA, definisce la terminologia e passa in rassegna le metriche più comuni associate al benchmarking delle reti di IA.
Come Keysight contribuisce a migliorare i data center AI
Eliminare gli anelli deboli
Garantire le prestazioni a livello di componente con test a livello fisico ed emulazioni di rete a livello di sistema.
Ottimizzare ogni strato
Modellare i progetti dei data center, convalidare le apparecchiature di rete in scala AI e mettere a punto le prestazioni a livello di sistema.
Scalare la capacità dell'intelligenza artificiale
Massimizzate le prestazioni dei data center con emulazioni di protocolli, applicazioni e reti reali.
Esplorate le nostre più recenti soluzioni di data center AI
Ottimizzare l'infrastruttura AI con KAI Data Center Builder
Eseguite il benchmark delle prestazioni dei data center di intelligenza artificiale con una fedeltà senza precedenti. KAI Data Center Builder emula la combinazione di comunicazioni collettive e algoritmi utilizzati per costruire un modello di apprendimento di grandi dimensioni (LLM), facilitando la convalida dell'infrastruttura di rete e dei tessuti di IA tramite test a livello di sistema.
Massimizzate l'affidabilità di Ethernet con i tester da banco ad alta velocità
Testate la nuova generazione di reti e interconnessioni ottimizzate per l'intelligenza artificiale. Grazie alla copertura completa dei test di livello 1-3 e al supporto fino a 40W per porta, il Keysight Interconnect and Network Performance Tester 1.6T offre funzionalità di test Ethernet all'avanguardia per produttori di switch e hyperscaler.
Validazione delle interconnessioni AI con gli oscilloscopi di campionamento DCA-M
Massimizzate l'affidabilità della rete con oscilloscopi di campionamento a 224 Gb/s che offrono una precisione ottica e un'efficienza di test dei ricetrasmettitori senza pari. Testate le apparecchiature di rete AI-ready 800G / 1,6T con il software di test ottico che semplifica i test di produzione per i ricetrasmettitori ottici ad alto volume.
Partecipate al nostro evento di presentazione dell'intelligenza artificiale
Imparare a progettare, convalidare e scalare i data center AI senza costose risorse GPU. Scoprite nuovi modi per massimizzare le prestazioni con strumenti che lavorano dal livello fisico a quello applicativo, il tutto partecipando a domande e risposte dal vivo con i migliori ingegneri Keysight che lavorano in prima linea nell'innovazione dell'IA.
Esplora i setup di test pronti per l'intelligenza artificiale
Reti di centri dati AI di prova
Emulazione di carichi di lavoro AI per eseguire il benchmark delle apparecchiature di rete e convalidare i tessuti AI/ML.
Convalida delle interconnessioni Ethernet
Garantire una trasmissione dei dati e una correzione degli errori di alta qualità, verificando l'affidabilità e le prestazioni.
Ottimizzazione dei test dei ricetrasmettitori ottici 1.6T
Produzione di ricetrasmettitori ottici da 1,6T con misure di dispersione del trasmettitore e TDECQ rapide ed efficienti.
Emulazione dei carichi di lavoro del centro dati AI
Ottimizzare l'infrastruttura per le prestazioni di formazione dell'intelligenza artificiale con una metodologia di test coerente e scalabile.
Analizzare i segnali del ricevitore PAM4
Utilizzate l'analisi degli errori per comprendere i segnali del ricevitore PAM4.
Analizzare l'integrità del segnale dei PCB
Riducete i rischi di integrità del segnale in un circuito stampato digitale ad alta velocità attraverso il rilevamento e la diagnosi di cross talk, jitter, rumore verticale e rumore di fase.
Eseguire la convalida del protocollo PCle® 6.0
Ottenere la convalida del protocollo a livello fisico, di collegamento dati e di transazione.
Valutare le prestazioni del FEC
Testate i collegamenti Ethernet ad alta velocità valutando il meccanismo di correzione degli errori.
Per saperne di più sul test dei data center AI
Domande frequenti: Centri dati AI
Un data center AI è un tipo unico di struttura di elaborazione, costruito appositamente per supportare le applicazioni di intelligenza artificiale (AI). I data center AI utilizzano strumenti robusti, tra cui le unità di elaborazione grafica (GPU) e le unità di elaborazione dei tensori (TPU), che consentono di elaborare grandi volumi di traffico, addestrare modelli di apprendimento di grandi dimensioni (LLM) ed eseguire le query degli utenti, un termine comunemente noto come "inferenza".
I data center AI vengono costruiti in tutto il mondo per soddisfare la crescente domanda. Tuttavia, la maggior parte dei data center AI si trova negli Stati Uniti, in particolare in Texas, California e Virginia.
I data center pronti per l'AI presentano diverse caratteristiche distintive:
- Hardware: GPU e TPU ad alte prestazioni che accelerano il calcolo dell'intelligenza artificiale.
- Storage: Sistemi di archiviazione ad alta velocità e grande capacità che gestiscono le enormi quantità di dati necessari per l'addestramento e l'inferenza dell'intelligenza artificiale.
- Raffreddamento: L'infrastruttura AI genera molto calore, quindi i data center AI-ready necessitano di tecnologie di raffreddamento avanzate come il raffreddamento a liquido e il raffreddamento di precisione per evitare il surriscaldamento.
- Scalabilità: I data center AI devono scalare le risorse in modo efficiente in base alle richieste fluttuanti delle attività AI.
- Networking: connessioni ad alta larghezza di banda e bassa latenza sono fondamentali per l'elaborazione e la comunicazione dei dati in tempo reale.
- Sicurezza: Misure di sicurezza solide e infrastrutture affidabili garantiscono protezione e disponibilità contro una serie di cyberattacchi specifici per l'IA.
Mentre i data center tradizionali gestiscono un'ampia gamma di attività di elaborazione generale, i data center AI sono ottimizzati per l'elaborazione di grandi volumi di dati, l'addestramento di modelli di apprendimento di grandi dimensioni e l'inferenza rispetto alle query degli utenti. I data center tradizionali utilizzano le CPU per le attività di elaborazione generali e le architetture di rete standard per il trasferimento dei dati tra storage, server e ambienti cloud, mentre i data center di intelligenza artificiale si affidano a GPU, TPU e reti ad alta velocità/bassa latenza per gestire il movimento rapido dei dati tra i processori.
I data center di intelligenza artificiale gestiscono una varietà di carichi di lavoro, ciascuno con requisiti unici di elaborazione e archiviazione. Alcuni dei tipi più comuni di carichi di lavoro sono i seguenti:
- Carichi di lavoro dell'elaborazione dati
- Carichi di lavoro di apprendimento automatico
- Carichi di lavoro per l'apprendimento profondo
- Carichi di lavoro di elaborazione del linguaggio naturale (NLP)
- Carichi di lavoro di IA generativa
- Carichi di lavoro della visione artificiale
I data center di intelligenza artificiale utilizzano diverse strategie per una gestione efficiente dei dati, tra cui sistemi di archiviazione ad alte prestazioni come le unità SSD NVMe (per garantire un accesso e un recupero rapidi dei dati), il data tiering che sposta i dati tra diversi livelli di archiviazione (in base ai modelli di utilizzo) e le tecniche di compressione e deduplicazione dei dati che consentono di risparmiare spazio di archiviazione e migliorare l'efficienza.
I data center ottimizzati per l'intelligenza artificiale utilizzano hardware specializzato per accelerare la formazione e l'inferenza. Ecco alcuni dei componenti più comuni:
- Unità di elaborazione grafica (GPU): Essential per le attività di elaborazione parallela, comunemente richieste nelle applicazioni di intelligenza artificiale.
- Unità di elaborazione dei tensori (TPU): Progettate per attività di apprendimento automatico, offrono formazione e inferenza ad alte prestazioni per i modelli di intelligenza artificiale.
- Storage ottimizzato per l'AI: Soluzioni di archiviazione ad alte prestazioni come le unità SSD NVMe aiutano a gestire grandi insiemi di dati con un recupero efficiente.
- Infrastruttura di rete: Infiniband, Ethernet e NVIDIA Spectrum-X forniscono comunicazioni ad alta velocità, riducono i colli di bottiglia e migliorano il throughput.
- Sistemi di raffreddamento: le tecnologie Advanced , come il raffreddamento a liquido, contribuiscono a garantire l'efficienza termica delle apparecchiature e delle infrastrutture di rete.
Le GPU e le TPU accelerano le prestazioni dei data center AI elaborando in modo efficiente le richieste di calcolo intensive dei carichi di lavoro AI. Ecco alcuni dei principali vantaggi che offrono:
- Riduzione dei tempi di addestramento: Le GPU e le TPU riducono i tempi di addestramento dei modelli di IA, facilitando lo sviluppo e la distribuzione di applicazioni di IA con velocità ed efficienza.
- Efficienza energetica: Le GPU e le TPU sono efficienti dal punto di vista energetico e aiutano gli hyperscaler a gestire i costi operativi e l'impatto ambientale.
- Capacità migliorate: Le GPU e le TPU aiutano i data center AI a supportare modelli AI più complessi e avanzati, promuovendo l'innovazione in diversi settori.
I cicli di calcolo dell'intelligenza artificiale generano enormi quantità di calore. Per questo motivo i data center AI richiedono soluzioni di raffreddamento avanzate per gestire e compensare il calore. Ecco alcune delle tecniche più comuni utilizzate dai data center AI per il raffreddamento:
- Raffreddamento a liquido: Il liquido di raffreddamento viene fatto circolare direttamente nelle fonti di calore, come le GPU e le TPU.
- Raffreddamento a immersione: I componenti IT vengono immersi in un fluido dielettrico che assorbe il calore in modo più efficace dell'aria.
- Scambiatori di calore a porta posteriore: Sistemi di raffreddamento che si collegano al retro dei rack di server e che utilizzano il raffreddamento a liquido per rimuovere il calore direttamente dall'aria di scarico del rack.
I data center di intelligenza artificiale impiegano in genere diverse strategie per garantire la scalabilità:
- Modularità: I data center AI utilizzano componenti modulari che possono essere espansi in base all'aumento della domanda, consentendo una scalabilità incrementale senza tempi di inattività significativi.
- Raffreddamento: Un raffreddamento efficiente è essenziale per i data center AI per mantenere prestazioni e affidabilità. Il raffreddamento a liquido e la gestione guidata dall'intelligenza artificiale possono contribuire a ottimizzare l'uso dell'energia e a supportare l'ulteriore scalabilità.
- Gestione dell'intelligenza artificiale: L'intelligenza artificiale può aiutare a prevedere e gestire i carichi di lavoro, ottimizzare le risorse e migliorare l'efficienza dei data center. Questo approccio proattivo aiuta gli hyperscaler a scalare in base alle fluttuazioni della domanda e a mantenere prestazioni ottimali.
L'edge computing può migliorare le prestazioni, ridurre la latenza e ottimizzare l'uso delle risorse nei data center di intelligenza artificiale. L'edge computing offre un'elaborazione dei dati in tempo reale, poiché l'inferenza può avvenire più vicino alla fonte, riducendo al minimo la distanza che i dati devono percorrere, ottimizzando la larghezza di banda e riducendo la latenza complessiva.
Gli hyperscaler impiegano diverse strategie innovative per garantire un consumo energetico efficiente nei data center AI:
- Rinnovabili: Gli iperscaler guardano sempre più alle fonti di energia rinnovabili, tra cui il solare e l'eolico. Queste fonti sostenibili riducono l'impronta di carbonio e garantiscono una fornitura sostenibile di energia.
- Raffreddamento: La gestione termica è fondamentale per ridurre il consumo energetico nei data center AI. Ecco perché gli hyperscaler stanno investendo nel raffreddamento a liquido e nella gestione del raffreddamento guidata dall'AI per garantire un uso efficiente dell'energia.
- Infrastruttura: Il layout e la progettazione dei data center AI svolgono un ruolo fondamentale nel consumo e nell'efficienza energetica. Strategie come il contenimento dei corridoi caldi e freddi, il posizionamento ideale dei server e un flusso d'aria adeguato possono migliorare l'efficienza energetica.
I data center di intelligenza artificiale richiedono un approccio di sicurezza specializzato per proteggersi da alcune vulnerabilità. Ad esempio, i modelli di apprendimento di grandi dimensioni sono particolarmente suscettibili agli attacchi di tipo prompt injection e adversarial, in cui input dannosi potrebbero potenzialmente ingannare i modelli di IA. Per questo motivo sono fondamentali strategie di sicurezza come i test continui (con uno strumento di test delle applicazioni e della sicurezza), il controllo degli accessi (compresa l'autenticazione a più fattori e il controllo degli accessi basato sui ruoli) e gli audit di sicurezza di routine.
I data center AI sono costruiti appositamente per supportare gli esigenti requisiti dell'apprendimento profondo e dell'apprendimento automatico:
- L'hardware di rete ad alte prestazioni, come le GPU, le TPU e gli acceleratori di intelligenza artificiale, gestisce i calcoli complessi coinvolti nell'addestramento dei modelli per l'apprendimento automatico e l'apprendimento profondo.
- Le interconnessioni ad alta larghezza di banda garantiscono scambi di dati efficienti e ad alta velocità tra i nodi di archiviazione e di calcolo.
- L'infrastruttura scalabile è in grado di soddisfare le crescenti richieste di potenza di calcolo e di archiviazione, essenziali per i complessi modelli di intelligenza artificiale e per i set di dati sempre più grandi.
Esistono numerosi hyperscaler e fornitori di IA che costruiscono e mantengono centri dati di IA in tutto il mondo. Tra i maggiori fornitori figurano Amazon Web Services, Google, OpenAI, Apple e Meta.
Volete aiuto o avete domande?