Wie man AI-Rechenzentrumsnetzwerke testet

AI Data Center Testplattform
+ 800GE Verkehrsemulator

Reproduktion des realistischen Netzwerkverhaltens von KI-Workloads

Das Benchmarking von Clustern für künstliche Intelligenz und maschinelles Lernen (KI/ML) mit realistischen Arbeitslasten erfordert in der Regel Investitionen in Computersysteme mit Grafikprozessoren und Netzwerkschnittstellen-Controllern (NICs) mit direktem Speicherzugriff (RDMA), deren Aufbau und Betrieb kostspielig und zeitaufwändig ist. Um KI-Netzwerke vollständig zu optimieren, müssen diese Systeme für Validierungen und Experimente im Terabit-Maßstab im Labor eingesetzt und betrieben werden. Ein angemessenes Benchmarking und Testen von KI-Netzwerken erfordert die Konfiguration von Parametern wie Clusterkonfiguration, Staukontrolle, Arbeitslastalgorithmen, Auftragsdatengröße, Verkehrsprofil und NIC-Leistung.

Die Generierung von realistischem, umfangreichem KI-Workload-Verkehr für Netzwerk-Benchmarking erfordert RDMA/RDMA over Converged Ethernet (RoCEv2)-Endpunkt-Emulatoren und Software mit vorgefertigten Methoden, die kollektive Kommunikationsmuster unterstützen - einschließlich all-to-all, all-reduce, all-gather und mehr. Die Software stellt die für KI-Netzwerke spezifischen Daten-Workloads bereit, mit denen wichtige Parameter wie die Zeit für die Auftragsabwicklung, die Algorithmus- und Busbandbreite sowie Einblicke in die Leistung der Netzwerkstruktur gemessen werden.

Testlösung für AI-Rechenzentrumsnetzwerke

Das Testen eines KI-Rechenzentrumsnetzwerks erfordert Netzwerkverkehrsemulatoren und Software mit vorgefertigten Methoden, die KI-Workloads unterstützen. Die Testlösung für KI-Rechenzentrumsnetzwerke umfasst die Keysight AresONE 800GE RoCEv2-Endpunktemulation in Verbindung mit der Keysight AI Data Center Builder Software. Diese Lösung kann wiederholbar Szenarien mit unterschiedlichen Datengrößen erstellen, die aus der kollektiven Kommunikation in einem KI-Cluster resultieren. Jeder Port auf dem AresONE emuliert eine GPU und eine RDMA-NIC. Der Datenverkehr umfasst die Emulation von Queue Pair (QP)-Verbindungen und Flüssen, die Generierung von Überlastungsmeldungen, die Durchführung der dynamischen Ratenkontrolle auf der Basis von Data Center Quantized Congestion Notification (DCQCN) sowie die Flexibilität, Durchsatz, Puffermanagement und ECMP-Hashing (Equal Cost Multi-Path) zu testen. Mit dieser Lösung können Ingenieure Verbesserungen in einer Labor- oder Staging-Umgebung entwickeln, Benchmarks durchführen und die Ergebnisse auf eine Produktionsumgebung übertragen, ohne dass spezielle AI-Rechenknoten und NICs im Labor erforderlich sind.

Sehen Sie sich die Demo unserer KI-Rechenzentrum-Testlösung an

Entdecken Sie die Produkte in unseren Netzwerktestlösungen

Verwandte Anwendungsfälle

Kontakt Logo

Nehmen Sie Kontakt mit einem unserer Experten auf

Benötigen Sie Hilfe bei der Suche nach der richtigen Lösung für Sie?