AI 네트워크 성능 및 효율성 최적화

AI 데이터 센터 배포를 가속화하고, SmartNIC 성능을 검증하며, 네트워킹 구성 요소를 압력 테스트합니다. 실제 트래픽 에뮬레이터를 사용하여 작업 완료 시간 및 집단 통신 대역폭과 같은 다양한 산업 표준 AI 지표를 실시간으로 추적합니다. AI 워크로드 에뮬레이터, 분산 네트워크 트래픽 생성기 및 네트워크 트래픽 에뮬레이터를 포함한 AI 최적화 네트워크 테스트 도구를 사용하여 AI 네트워크 성능을 벤치마킹하고, 병목 현상을 감지하며, AI 워크로드 분배를 최적화합니다.

최대 1.6T 속도에서 무손실 이더넷을 검증합니다.

AI/ML 및 고성능 컴퓨팅 네트워크에서 안정적인 데이터 전송을 보장하여 가속화되는 성능 요구 사항에 앞서 나가십시오.

AI 워크로드 에뮬레이션에 대해 AI 네트워크 장비 압력 테스트

AI 워크로드 동작을 에뮬레이션하여 성능과 효율성을 최적화하는 고밀도 트래픽 생성기를 통해 고비용 GPU 기반 랩 설정의 필요성을 줄일 수 있습니다.

AI 전용 네트워크 파라미터가 성능에 미치는 영향 확인

다양한 트래픽 모델과 워크로드 프로필 중에서 선택하여 구성 요소 및 시스템 수준에서 벤치마킹 및 네트워크 성능 테스트를 간소화하십시오.

경영진 관점: 키사이트 AI 솔루션

키사이트테크놀로지스(Keysight Technologies)의 네트워크 애플리케이션 및 보안 사업부 부사장 겸 총괄 관리자인 Ram Periakaruppan이 AI 데이터 센터가 직면한 주요 과제, AI 성능 및 효율성을 최적화하는 방법, 그리고 키사이트의 AI 지원 데이터 센터 솔루션 포트폴리오가 어떻게 도움이 되는지 논의하는 내용을 들어보십시오.

AI 네트워크에 대해 자세히 알아보기

자주 묻는 질문: AI 네트워크

기존 네트워크에서는 워크로드 유형과 크기가 다양하고, 트래픽이 여러 연결에 분산되며, 사용자 수에 비례하여 증가하고, 지연되거나 손실된 패킷이 일반적으로 심각한 문제를 일으키지 않습니다. AI 네트워크에서는 모든 GPU가 대규모 언어 모델(LLM)을 구축하는 동일한 문제를 처리합니다. LLM을 구축하기 위한 워크로드는 패킷 손실이나 혼잡 없이 GPU 간에 대량의 데이터를 공유해야 합니다. 모든 GPU가 동일한 문제를 처리하므로 마지막 GPU가 처리를 완료할 때 작업이 완료됩니다. 하나의 GPU에 데이터를 전달하는 데 지연이 발생하면 전체 워크로드가 지연됩니다.

AI 네트워크를 최적화하는 것은 기존 데이터 센터 네트워크를 최적화하는 것과 다릅니다. AI 네트워크는 거의 최대 용량으로 실행되며 GPU 활용도를 최대화하려면 무손실이어야 합니다. 다양한 설정으로 여러 혼잡 메커니즘을 사용할 수 있습니다. 벤치마킹 툴을 사용하여 랩 환경에서 AI 워크로드를 실행하면 최적의 구성 및 설정을 찾아 프로덕션 환경에 적용할 수 있는 방법을 제공합니다.

AI 네트워크에서 GPU는 동일한 문제를 처리하며, 마지막 GPU가 필요한 데이터를 수신하고 처리를 완료해야만 작업이 완료됩니다. AI 네트워크 성능의 주요 측정값 중 하나는 테일 지연(tail latency), 즉 완료 시간이 가장 긴 흐름입니다. 이 측정값은 P95라고 불리며, 가장 느린 5%의 네트워크 흐름에 대한 완료 시간입니다.

RDMA는 Remote Direct Memory Access의 약어입니다. RDMA를 사용하면 AI 데이터 센터에서 CPU 및 네트워킹 스택의 개입을 최소화하면서 GPU 간에 데이터를 전송할 수 있습니다. 이를 통해 AI 데이터 센터에서 낮은 지연 시간과 높은 처리량 통신이 가능합니다. 서버의 RDMA 지원 네트워크 인터페이스 카드는 RDMA 지원 스위치에 연결되어 GPU 간 고속 통신을 가능하게 합니다.

Ultra Ethernet(UE)은 이더넷에 기능을 추가하여 AI 및 고성능 컴퓨팅 요구 사항을 위한 빠르고 확장성이 뛰어나며 낮은 지연 시간의 네트워크를 제공합니다. 패킷 스프레이는 플로우가 대상까지 여러 경로를 사용할 수 있도록 하여 네트워크 전반의 로드 밸런싱을 개선합니다. 유연한 순서 지정은 패킷이 순서에 상관없이 대상에 도착할 수 있도록 합니다. 수신기 기반 혼잡 제어는 기존 송신기 기반 혼잡 제어 메커니즘을 기반으로 All-to-All과 같은 AI 집단에서 발생하는 인캐스트 혼잡을 개선합니다. 향상된 텔레메트리는 더 빠른 제어 평면 신호 시간을 허용하여 혼잡 이벤트에 대한 응답을 개선합니다. UE는 기존 데이터 센터 이더넷 스위치와 상호 운용 가능하지만, UEC 기반 스위치 및 네트워크 인터페이스 카드를 사용하면 더 높은 네트워크 활용도와 감소된 테일 지연 시간으로 더 효율적으로 실행됩니다.

GPU 간의 데이터 이동을 집합 연산(Collective Operation)이라고 합니다. 데이터의 초기 및 최종 위치와 처리 과정에서 데이터에 대한 수학적 연산을 수행해야 하는지 여부에 따라 여러 가지 유형이 있습니다. 일반적으로 사용되는 유형은 Broadcast and Gather, ReduceScatter, AllGather, AllReduce, AlltoAll입니다. 연산 이름에 "reduce" 키워드가 있으면 이 연산이 데이터에 대한 계산을 수행함을 의미합니다. 집합 연산은 여러 알고리즘을 사용하여 구현할 수 있습니다. AllReduce에 대한 잘 알려진 알고리즘으로는 Unidirectional and Bidirectional Ring, Double Binary Tree, Halving-Doubling이 있습니다. 각 알고리즘은 GPU 수와 상호 연결 방식에 따라 성능이 더 좋거나 나쁠 수 있습니다.

어떤 도움을 드릴까요?