AI 데이터 센터 네트워크 테스트 방법

인공지능 데이터 센터 테스트 플랫폼
+ 800GE 트래픽 에뮬레이터

인공지능 워크로드의 현실적인 네트워크 동작 재현

현실적인 워크로드로 인공지능/머신러닝(AI/ML) 클러스터 패브릭을 벤치마킹하려면 일반적으로 GPU 및 RDMA(원격 직접 메모리 액세스) NIC(네트워크 인터페이스 컨트롤러)가 장착된 컴퓨팅 시스템에 투자해야 하는데, 이는 구축 및 운영에 비용과 시간이 많이 소요됩니다. AI 네트워크를 완전히 최적화하려면 연구실에서 테라비트 규모의 검증 및 실험을 위해 이러한 시스템을 배포하고 운영하는 것이 필수적입니다. AI 네트워크의 적절한 벤치마킹 및 테스트에는 클러스터 구성, 혼잡 제어, 워크로드 알고리즘, 작업 데이터 크기, 트래픽 프로필 및 NIC 성능과 같은 매개변수 구성이 필요합니다.

네트워크 벤치마킹을 위한 현실적이고 대규모의 AI 워크로드 트래픽을 생성하려면 all-to-all, all-reduce, all-gather 등을 포함한 집단 통신 패턴을 지원하는 사전 패키지된 방법론을 갖춘 RDMA / RoCEv2(RDMA over Converged Ethernet) 엔드포인트 에뮬레이터 및 소프트웨어가 필요합니다. 이 소프트웨어는 AI 네트워크에 특화된 데이터 워크로드를 제공하여 작업 완료 시간, 알고리즘 및 버스 대역폭과 같은 주요 매개변수를 측정하고 네트워크 패브릭 성능에 대한 통찰력을 제공합니다.

인공지능 데이터센터 네트워크 테스트 솔루션

AI 데이터 센터 네트워크를 테스트하려면 네트워크 트래픽 에뮬레이터와 AI 워크로드를 지원하는 사전 패키지된 방법론이 포함된 소프트웨어가 필요합니다. AI 데이터 센터 네트워크 테스트 솔루션에는 키사이트 AresONE 800GE RoCEv2 엔드포인트 에뮬레이션과 키사이트 AI Data Center Builder 소프트웨어가 포함됩니다. 이 솔루션은 AI 클러스터의 집단 통신으로 인해 발생하는 다양한 데이터 크기의 시나리오를 반복적으로 생성할 수 있습니다. AresONE의 각 포트는 GPU와 RDMA NIC를 에뮬레이션합니다. 트래픽에는 큐 페어(QP) 연결 및 흐름 에뮬레이션, 혼잡 알림 생성, DCQCN(Data Center Quantized Congestion Notification) 기반 동적 속도 제어 수행, 처리량, 버퍼 관리 및 ECMP(Equal Cost Multi-Path) 해싱을 테스트할 수 있는 유연성 제공이 포함됩니다. 이 솔루션을 통해 엔지니어는 전용 AI 컴퓨팅 노드 및 NIC 없이도 랩 또는 스테이징 환경에서 개선 사항을 설계하고 벤치마킹하며 결과를 프로덕션 환경에 적용할 수 있습니다.

당사의 AI 데이터 센터 테스트 솔루션 데모 보기

당사의 네트워크 테스트 솔루션 제품 살펴보기

관련 사용 사례

문의하기 로고

전문가에게 문의하십시오.

적합한 솔루션을 찾는 데 도움이 필요하십니까?