Desbloqueie o potencial da IA

Um data center de IA é tão confiável quanto seu elo mais fraco. Na vanguarda do desempenho, cada chip, cabo, interconexão, switch, servidor e GPU representa tanto potencial quanto risco. Além de os componentes individuais funcionarem de forma independente, eles também precisam trabalhar de forma coesa como um sistema sob demanda incessante.

Criar redes capazes de lidar com as demandas das cargas de trabalho de IA significa validar cada componente, conexão e configuração. Com os riscos e a escala tão altos, até mesmo o menor ganho de eficiência, melhoria operacional ou aprimoramento de desempenho pode gerar retornos significativos, reduzindo as interrupções e evitando falhas em cascata.

Centros de dados de IA: Um ponto de inflexão técnica

Velocidades ópticas do data center de IA

Ethernet
As velocidades do data center aumentarão de 400/800G para 1,6/3,2T Ethernet de alta velocidade.

Velocidades de memória do data center de IA

Memória
A DDR5 está dando lugar à DDR6 e à HBM3, com velocidades de até 12,8 GT/s.

Velocidades de Ethernet do data center de IA

Óptica
As velocidades de transferência de 112 Gb/s darão lugar aos padrões de 224 e 448 Gb/s.

Ícone do transceptor AI

PCIe® / CXL
O PCIe® 7 atualizará o PCIe® 5 e o PCIe® 6, à medida que as transferências aumentam de 32 para 128 GT/s.

Como a Keysight ajuda a aprimorar os data centers de IA

Eliminar os elos fracos

Garanta o desempenho em nível de componente com testes de camada física e emulações de rede em nível de sistema.

Otimize cada camada

Modele projetos de data center, valide equipamentos de rede em escala de IA e faça o ajuste fino do desempenho em nível de sistema.

Dimensionar a capacidade da IA

Maximize o desempenho do data center com emulações de protocolos, aplicativos e redes do mundo real.

Participe de nosso evento de demonstração de IA

Saiba como projetar, validar e dimensionar data centers de IA sem recursos caros de GPU. Descubra novas maneiras de maximizar o desempenho com ferramentas que funcionam desde a camada física até a camada de aplicativos - tudo isso enquanto participa de perguntas e respostas ao vivo com os principais engenheiros da Keysight que trabalham na vanguarda da inovação em IA.

Ícone de rede distribuída

Saiba mais sobre o teste de data centers de IA

Perguntas frequentes: Centros de dados de IA

Um data center de IA é um tipo exclusivo de instalação de computação, criado especificamente para dar suporte a aplicativos de inteligência artificial (IA). Os data centers de IA utilizam ferramentas robustas, incluindo GPUs (Graphics Processing Units, unidades de processamento gráfico) e TPUs (Tensor Processing Units, unidades de processamento de tensores), que lhes permitem processar grandes volumes de tráfego, treinar modelos de aprendizagem de grande porte (LLMs) e executar consultas de usuários - um termo comumente conhecido como "inferência".

Os data centers de IA estão sendo construídos em todo o mundo para atender à crescente demanda. No entanto, a maioria dos data centers de IA está localizada nos Estados Unidos, especificamente no Texas, na Califórnia e na Virgínia.

Os data centers prontos para IA têm vários recursos distintos:

  • Hardware: GPUs e TPUs de alto desempenho que aceleram a computação de IA.
  • Armazenamento: Sistemas de armazenamento de alta velocidade e grande capacidade que gerenciam as enormes quantidades de dados necessários para o treinamento e a inferência de IA.
  • Resfriamento: A infraestrutura de IA gera muito calor, portanto, os data centers prontos para IA precisam de tecnologias avançadas de resfriamento, como resfriamento líquido e resfriamento de precisão, para evitar o superaquecimento.
  • Dimensionamento: Os data centers de IA devem dimensionar os recursos de forma eficiente com base nas demandas flutuantes das tarefas de IA.
  • Rede: conexões de alta largura de banda e baixa latência são essenciais para o processamento e a comunicação de dados em tempo real.
  • Segurança: Medidas de segurança robustas e infraestrutura confiável garantem proteção e disponibilidade contra uma série de ataques cibernéticos específicos de IA.

Enquanto os data centers tradicionais lidam com uma ampla gama de tarefas gerais de computação, os data centers de IA são otimizados para processar grandes volumes de dados, treinar grandes modelos de aprendizagem e fazer inferências em relação a consultas de usuários. Os data centers tradicionais usam CPUs para tarefas gerais de computação e arquiteturas de rede padrão para transferências de dados entre armazenamento, servidores e ambientes de nuvem, enquanto os data centers de IA contam com GPUs, TPUs e redes de alta velocidade/baixa latência para lidar com a rápida movimentação de dados entre os processadores.

Os data centers de IA lidam com uma variedade de cargas de trabalho, cada uma com requisitos exclusivos de computação e armazenamento. Alguns dos tipos mais comuns de cargas de trabalho são os seguintes:

  • Cargas de trabalho de processamento de dados
  • Cargas de trabalho de aprendizado de máquina
  • Cargas de trabalho de aprendizagem profunda
  • Cargas de trabalho de processamento de linguagem natural (NLP)
  • Cargas de trabalho de IA generativa
  • Cargas de trabalho de visão computacional

Os data centers de IA utilizam várias estratégias para o gerenciamento eficiente de dados, incluindo sistemas de armazenamento de alto desempenho, como SSDs NVMe (para garantir acesso e recuperação rápidos de dados), classificação de dados por níveis que movem os dados entre diferentes níveis de armazenamento (com base nos padrões de uso) e técnicas de compactação e deduplicação de dados que economizam espaço de armazenamento e aumentam a eficiência.

Os data centers otimizados para IA empregam hardware especializado para acelerar o treinamento e a inferência. Aqui estão alguns dos componentes mais comuns:

  • Unidades de processamento gráfico (GPUs): Equipamento essencial para tarefas de processamento paralelo, que geralmente são necessárias para aplicativos de IA.
  • Unidades de processamento de tensor (TPUs): Projetadas para tarefas de aprendizado de máquina, oferecendo treinamento e inferência de alto desempenho para modelos de IA.
  • Armazenamento otimizado para IA: As soluções de armazenamento de alto desempenho, como os SSDs NVMe, ajudam a gerenciar grandes conjuntos de dados com recuperação eficiente.
  • Infraestrutura de rede: Infiniband, Ethernet e NVIDIA Spectrum-X fornecem comunicações de alta velocidade, reduzem gargalos e aumentam a taxa de transferência.
  • Sistemas de resfriamento: Tecnologias avançadas de resfriamento, como o resfriamento líquido, ajudam a gerenciar a eficiência térmica em toda a infraestrutura e nos equipamentos de rede.

As GPUs e TPUs aceleram o desempenho nos data centers de IA, processando com eficiência as demandas computacionais intensivas das cargas de trabalho de IA. Aqui estão alguns dos principais benefícios que elas oferecem:

  • Redução do tempo de treinamento: As GPUs e TPUs reduzem o tempo de treinamento dos modelos de IA, facilitando o desenvolvimento e a implantação de aplicativos de IA com velocidade e eficiência.
  • Eficiência energética: As GPUs e TPUs são eficientes em termos de energia, ajudando os hiperescaladores a gerenciar os custos operacionais e o impacto ambiental.
  • Recursos aprimorados: As GPUs e TPUs ajudam os data centers de IA a suportar modelos de IA mais complexos e avançados, impulsionando a inovação em vários setores.

Os ciclos de computação de IA geram grandes quantidades de calor. É por isso que os data centers de IA exigem soluções avançadas de resfriamento para gerenciar e compensar o calor. Aqui estão algumas das técnicas mais comuns que os data centers de IA usam para resfriamento:

  • Resfriamento líquido: O líquido de arrefecimento é circulado diretamente nas fontes de calor, como GPUs e TPUs.
  • Resfriamento por imersão: Os componentes de TI são submersos em um fluido dielétrico, que absorve o calor com mais eficiência do que o ar.
  • Trocadores de calor na porta traseira: Sistemas de resfriamento que são fixados na parte traseira dos racks de servidores, usando resfriamento líquido para remover o calor diretamente do ar de exaustão do rack.

Os data centers de IA normalmente empregam várias estratégias para garantir a escalabilidade:

  • Modularidade: Os data centers de IA usam componentes modulares que podem ser expandidos à medida que a demanda cresce, permitindo o dimensionamento incremental sem tempo de inatividade significativo.
  • Resfriamento: O resfriamento eficiente é essencial para que os data centers de IA mantenham o desempenho e a confiabilidade. O resfriamento líquido e o gerenciamento orientado por IA podem ajudar a otimizar o uso de energia e dar suporte ao dimensionamento adicional.
  • Gerenciamento de IA: A IA pode ajudar a prever e gerenciar cargas de trabalho, otimizar recursos e aumentar a eficiência do data center. Essa abordagem proativa ajuda os hiperescaladores a se adaptarem às demandas flutuantes e a manterem o desempenho ideal.

A computação de borda pode melhorar o desempenho, reduzir a latência e otimizar o uso de recursos nos data centers de IA. A computação de borda oferece processamento de dados em tempo real, pois a inferência pode ocorrer mais perto da fonte, o que minimiza a distância que os dados precisam percorrer, otimizando a largura de banda e reduzindo a latência geral.

Os hiperescaladores empregam várias estratégias inovadoras para garantir o consumo eficiente de energia nos data centers de IA:

  • Energias renováveis: Os hiperescaladores estão buscando cada vez mais fontes de energia renováveis, inclusive solar e eólica. Essas fontes sustentáveis reduzem as pegadas de carbono e garantem um fornecimento sustentável de energia.
  • Resfriamento: O gerenciamento térmico é crucial para reduzir o consumo de energia nos data centers de IA. É por isso que os hiperescaladores estão investindo em resfriamento líquido e gerenciamento de resfriamento orientado por IA para garantir o uso eficiente de energia.
  • Infraestrutura: O layout e o design dos data centers de IA desempenham um papel fundamental no consumo e na eficiência de energia. Estratégias como contenção de corredores quentes e frios, posicionamento ideal do servidor e fluxo de ar adequado podem melhorar a eficiência energética.

Os data centers de IA exigem uma abordagem de segurança especializada para proteger contra determinadas vulnerabilidades. Por exemplo, grandes modelos de aprendizagem são particularmente suscetíveis à injeção imediata e a ataques adversários, em que entradas mal-intencionadas podem enganar os modelos de IA. É por isso que estratégias de segurança como testes contínuos (com um aplicativo e uma ferramenta de teste de segurança), controle de acesso (incluindo autenticação multifator e controle de acesso baseado em função) e auditorias de segurança de rotina são essenciais.

Os data centers de IA são criados especificamente para dar suporte aos requisitos exigentes da aprendizagem profunda e da aprendizagem automática:

  • O hardware de rede de alto desempenho, como GPUs, TPUs e aceleradores de IA, lida com os cálculos complexos envolvidos no treinamento de modelos para aprendizagem automática e aprendizagem profunda.
  • As interconexões de alta largura de banda garantem trocas de dados eficientes e de alta velocidade entre o armazenamento e os nós de computação.
  • A infraestrutura dimensionável acomoda as demandas crescentes de potência de computação e armazenamento, o que é essencial para modelos complexos de IA e conjuntos de dados cada vez maiores.

Há vários hiperescaladores e provedores de IA construindo e mantendo data centers de IA em todo o mundo. Alguns dos maiores provedores incluem Amazon Web Services, Google, OpenAI, Apple e Meta.

Deseja ajuda ou tem dúvidas?