Pendant des années, la stratégie en matière d'infrastructure d'IA s'est concentrée sur l'apprentissage. Aujourd'hui, le secteur s'intéresse davantage à la manière dont les modèles d'IA répondent aux demandes et aux requêtes des utilisateurs. Ce processus, appelé « inférence », occupe désormais le devant de la scène.
Keysight AI (KAI) Inference Builder est conçu pour cette nouvelle ère. Solution d'émulation et d'analyse tenant compte des processus d'inférence, KAI Inference Builder reproduit le comportement des clients IA et des réponses afin de tester et d'optimiser l'infrastructure IA dans des conditions de charge de travail réalistes. Grâce à une validation complète de la pile logicielle basée sur les charges de travail, il n'est plus nécessaire de se contenter de benchmarks ou de tests de charge génériques.
L'inférence détermine l'expérience utilisateur ; par conséquent, pour garantir la cohérence, il faut recourir à une validation en conditions réelles, et non à des tests de performance en laboratoire.
Certaines applications sollicitent davantage la puissance de calcul, la mémoire ou la latence. Sans une validation adaptée à la charge de travail, il est difficile d'identifier les goulots d'étranglement.
L'inférence couvre la sécurité, les réseaux, la recherche de données et le calcul. C'est le maillon le plus faible qui détermine les performances.
Les mesures de protection et les contrôles de politique ont une incidence sur la stabilité à grande échelle. Les opérateurs doivent démontrer la sécurité et les performances du système sous des charges réseau réelles.
Validez l'intégralité du parcours requête-réponse à l'aide de requêtes réelles, de scénarios de traitement simultané et de flux de jetons. KAI Inference Builder aide les équipes à identifier les goulots d'étranglement au niveau de l'équilibrage de charge, du réseau et des ressources de calcul, avant qu'ils n'apparaissent en production.
Identifiez les goulots d'étranglement au niveau des couches de calcul GPU, de mémoire, de cache KV, de stockage, PCIe, RDMA et d'orchestration. En mode « one-arm », KAI Inference Builder fait office de client d'inférence à grande échelle, acheminant directement les charges de travail sous forme de requêtes vers les piles d'inférence, ce qui permet aux équipes réseau d'identifier plus rapidement les problèmes et d'optimiser les performances avec précision.
Intégrez des modèles de requêtes réels dans la pile et analysez les données de télémétrie obtenues pour identifier les besoins de votre système : qu'il s'agisse d'une mémoire plus importante, d'une meilleure planification, de chemins de récupération plus performants ou d'une utilisation optimisée du GPU. En mesurant les flux de travail d'inférence de bout en bout, KAI Inference Builder transforme les comportements complexes du système en informations claires et exploitables.
Toutes les charges de travail d'inférence ne se comportent pas de la même manière. C'est pourquoi KAI Inference Builder modélise les formats de requêtes et les réponses des modèles propres à chaque secteur. Grâce à sa prise en charge des secteurs juridique, financier et d'autres domaines, KAI Inference Builder aide les équipes à générer des preuves spécifiques à chaque charge de travail, à comparer les architectures et à détecter les régressions à mesure que les modèles et les modèles de requêtes évoluent.
Les délais de mise en place des infrastructures d'IA sont souvent limités par la disponibilité du matériel. C'est pourquoi KAI Inference Builder propose une intégration clé en main avec les environnements de jumeaux numériques NVIDIA DSX Air. KAI Inference Builder simule les requêtes et les réponses d'inférence réelles au sein de l'environnement de centre de données modélisé, ce qui permet aux équipes réseau de commencer à valider et à optimiser les déploiements avant même que l'infrastructure physique ne soit entièrement en place.
Que recherchez-vous ?