무엇을 찾고 있습니까?
인공지능 네트워크
AI 데이터 센터 성능을 최대화하십시오.
AI 네트워크 성능 및 효율성 최적화
AI 데이터 센터 배포를 가속화하고, SmartNIC 성능을 검증하며, 네트워킹 구성 요소를 압력 테스트합니다. 실제 트래픽 에뮬레이터를 사용하여 작업 완료 시간 및 집단 통신 대역폭과 같은 다양한 산업 표준 AI 지표를 실시간으로 추적합니다. AI 워크로드 에뮬레이터, 분산 네트워크 트래픽 생성기 및 네트워크 트래픽 에뮬레이터를 포함한 AI 최적화 네트워크 테스트 도구를 사용하여 AI 네트워크 성능을 벤치마킹하고, 병목 현상을 감지하며, AI 워크로드 분배를 최적화합니다.
AI 네트워크에 대해 알아야 할 모든 것
주니퍼, 키사이트와 함께 차세대 AI 네트워크 구축
Juniper Networks가 키사이트와 협력하여 AI 네트워크를 위한 네트워크 인프라를 구축한 방법을 알아보십시오. 키사이트 네트워크 에뮬레이션 툴이 Juniper가 AI 데이터 센터의 실제 요구 사항에 맞춰 제품을 테스트하고 검증하는 데 어떻게 도움이 되었는지 확인하십시오.
AI 데이터 센터 최적화 및 확장을 위한 5가지 전략
AI는 산업을 변화시키고 혁신을 주도하고 있습니다. 그러나 고유한 트래픽 패턴, 동적 워크로드 및 끊임없는 성능 압력은 아무리 작은 문제라도 심각한 문제로 확대될 수 있습니다.
이 eBook을 읽고 최신 애플리케이션을 위한 AI 데이터 센터 성능을 최적화하는 5가지 실용적인 솔루션을 확인하십시오.
AI 데이터 센터 클러스터의 확장성 향상
귀사의 네트워크 인프라가 복잡하고 트래픽이 많은 AI 트레이닝 워크로드를 처리할 수 있도록 확장될 수 있습니까? 이 백서는 AI 데이터 센터 클러스터 확장성을 심층적으로 다루고, 중요한 네트워크 과제를 식별하며, 조직의 AI 목표를 위한 확장 가능하고 안정적인 네트워크를 보장하는 방법을 설명합니다.
AI 네트워킹 부트캠프
키사이트 엔지니어들과 함께 AI 네트워크 테스트 및 AI 데이터 센터 배포 검증의 세계를 심층적으로 살펴보십시오. 이 과정을 마치면 빠르게 변화하는 혁신적인 새로운 네트워킹 패러다임을 제어하는 데 필요한 통찰력과 자신감을 얻게 될 것입니다.
집단 작업 벤치마킹
AI 클러스터에서 네트워크 성능을 측정하거나 벤치마킹하는 것은 조직이 추가 하드웨어 비용 없이 전반적인 처리량을 최적화하고 개선할 기회를 식별하는 데 도움이 될 수 있습니다. 이 백서는 AI 집합체의 작동 방식을 설명하고, 용어를 정의하며, AI 네트워크 벤치마킹과 관련된 가장 일반적인 지표를 검토합니다.
최대 1.6T 속도에서 무손실 이더넷을 검증합니다.
AI/ML 및 고성능 컴퓨팅 네트워크에서 안정적인 데이터 전송을 보장하여 가속화되는 성능 요구 사항에 앞서 나가십시오.
AI 워크로드 에뮬레이션에 대해 AI 네트워크 장비 압력 테스트
AI 워크로드 동작을 에뮬레이션하여 성능과 효율성을 최적화하는 고밀도 트래픽 생성기를 통해 고비용 GPU 기반 랩 설정의 필요성을 줄일 수 있습니다.
AI 전용 네트워크 파라미터가 성능에 미치는 영향 확인
다양한 트래픽 모델과 워크로드 프로필 중에서 선택하여 구성 요소 및 시스템 수준에서 벤치마킹 및 네트워크 성능 테스트를 간소화하십시오.
AI 네트워크 솔루션 살펴보기
KAI Data Center Builder로 AI 인프라 최적화
비교할 수 없는 정확도로 AI 데이터 센터 성능을 벤치마킹하십시오. KAI Data Center Builder는 대규모 학습 모델(LLM)을 구축하는 데 사용되는 집단 통신 및 알고리즘의 조합을 에뮬레이션하여 시스템 전반의 테스트를 통해 네트워크 인프라 및 AI 패브릭을 쉽게 검증할 수 있도록 합니다.
1.6T 이더넷의 안정성과 성능을 극대화합니다.
AI 인터커넥트 및 데이터 센터 네트워크를 위한 최첨단 이더넷 제품을 테스트하십시오. 물리적(L1) 및 프로토콜(L2-3) 계층 테스트 지원을 통해 키사이트 인터커넥트 및 네트워크 성능 테스터 1600GE는 광 및 액티브 케이블 인터커넥트, 네트워크 스위치 및 AI 네트워크에 대해 비교할 수 없는 테스트 범위를 제공합니다.
CyPerf를 사용하여 SmartNIC 및 LLM 인프라를 검증합니다.
컴퓨팅 집약적인 AI 네이티브 트래픽 에뮬레이션 및 테스트 시나리오에 대해 고성능 네트워크 장비를 부하 테스트하십시오. 키사이트 CyPerf는 벤치마킹, 실제 트래픽 시뮬레이션 및 대규모 테스트를 통해 시스템 성능, 확장성 및 안정성을 쉽게 평가할 수 있도록 합니다.
BreakingPoint로 고급 공격으로부터 LLM 보호
AI 네트워크에 영향을 미치는 가장 일반적인 유형의 사이버 공격인 프롬프트 인젝션 공격으로부터 대규모 언어 모델을 보호하십시오. 고급 네트워크 보안 및 애플리케이션 테스트 도구인 키사이트 BreakingPoint는 AI 네트워크와 이를 구동하는 네트워크 장비의 보안, 안정성 및 성능을 검증할 수 있습니다.
경영진 관점: 키사이트 AI 솔루션
키사이트테크놀로지스(Keysight Technologies)의 네트워크 애플리케이션 및 보안 사업부 부사장 겸 총괄 관리자인 Ram Periakaruppan이 AI 데이터 센터가 직면한 주요 과제, AI 성능 및 효율성을 최적화하는 방법, 그리고 키사이트의 AI 지원 데이터 센터 솔루션 포트폴리오가 어떻게 도움이 되는지 논의하는 내용을 들어보십시오.
AI 네트워크에 대해 자세히 알아보기
자주 묻는 질문: AI 네트워크
기존 네트워크에서는 워크로드 유형과 크기가 다양하고, 트래픽이 여러 연결에 분산되며, 사용자 수에 비례하여 증가하고, 지연되거나 손실된 패킷이 일반적으로 심각한 문제를 일으키지 않습니다. AI 네트워크에서는 모든 GPU가 대규모 언어 모델(LLM)을 구축하는 동일한 문제를 처리합니다. LLM을 구축하기 위한 워크로드는 패킷 손실이나 혼잡 없이 GPU 간에 대량의 데이터를 공유해야 합니다. 모든 GPU가 동일한 문제를 처리하므로 마지막 GPU가 처리를 완료할 때 작업이 완료됩니다. 하나의 GPU에 데이터를 전달하는 데 지연이 발생하면 전체 워크로드가 지연됩니다.
AI 네트워크를 최적화하는 것은 기존 데이터 센터 네트워크를 최적화하는 것과 다릅니다. AI 네트워크는 거의 최대 용량으로 실행되며 GPU 활용도를 최대화하려면 무손실이어야 합니다. 다양한 설정으로 여러 혼잡 메커니즘을 사용할 수 있습니다. 벤치마킹 툴을 사용하여 랩 환경에서 AI 워크로드를 실행하면 최적의 구성 및 설정을 찾아 프로덕션 환경에 적용할 수 있는 방법을 제공합니다.
AI 네트워크에서 GPU는 동일한 문제를 처리하며, 마지막 GPU가 필요한 데이터를 수신하고 처리를 완료해야만 작업이 완료됩니다. AI 네트워크 성능의 주요 측정값 중 하나는 테일 지연(tail latency), 즉 완료 시간이 가장 긴 흐름입니다. 이 측정값은 P95라고 불리며, 가장 느린 5%의 네트워크 흐름에 대한 완료 시간입니다.
RDMA는 Remote Direct Memory Access의 약어입니다. RDMA를 사용하면 AI 데이터 센터에서 CPU 및 네트워킹 스택의 개입을 최소화하면서 GPU 간에 데이터를 전송할 수 있습니다. 이를 통해 AI 데이터 센터에서 낮은 지연 시간과 높은 처리량 통신이 가능합니다. 서버의 RDMA 지원 네트워크 인터페이스 카드는 RDMA 지원 스위치에 연결되어 GPU 간 고속 통신을 가능하게 합니다.
Ultra Ethernet(UE)은 이더넷에 기능을 추가하여 AI 및 고성능 컴퓨팅 요구 사항을 위한 빠르고 확장성이 뛰어나며 낮은 지연 시간의 네트워크를 제공합니다. 패킷 스프레이는 플로우가 대상까지 여러 경로를 사용할 수 있도록 하여 네트워크 전반의 로드 밸런싱을 개선합니다. 유연한 순서 지정은 패킷이 순서에 상관없이 대상에 도착할 수 있도록 합니다. 수신기 기반 혼잡 제어는 기존 송신기 기반 혼잡 제어 메커니즘을 기반으로 All-to-All과 같은 AI 집단에서 발생하는 인캐스트 혼잡을 개선합니다. 향상된 텔레메트리는 더 빠른 제어 평면 신호 시간을 허용하여 혼잡 이벤트에 대한 응답을 개선합니다. UE는 기존 데이터 센터 이더넷 스위치와 상호 운용 가능하지만, UEC 기반 스위치 및 네트워크 인터페이스 카드를 사용하면 더 높은 네트워크 활용도와 감소된 테일 지연 시간으로 더 효율적으로 실행됩니다.
GPU 간의 데이터 이동을 집합 연산(Collective Operation)이라고 합니다. 데이터의 초기 및 최종 위치와 처리 과정에서 데이터에 대한 수학적 연산을 수행해야 하는지 여부에 따라 여러 가지 유형이 있습니다. 일반적으로 사용되는 유형은 Broadcast and Gather, ReduceScatter, AllGather, AllReduce, AlltoAll입니다. 연산 이름에 "reduce" 키워드가 있으면 이 연산이 데이터에 대한 계산을 수행함을 의미합니다. 집합 연산은 여러 알고리즘을 사용하여 구현할 수 있습니다. AllReduce에 대한 잘 알려진 알고리즘으로는 Unidirectional and Bidirectional Ring, Double Binary Tree, Halving-Doubling이 있습니다. 각 알고리즘은 GPU 수와 상호 연결 방식에 따라 성능이 더 좋거나 나쁠 수 있습니다.
어떤 도움을 드릴까요?