Conception et performance d'EOS, le superordinateur IA de Nvidia

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home Hardware-fr Conception et performance d'EOS, le superordinateur IA de Nvidia

Conception et performance d'EOS, le superordinateur IA de Nvidia

Table of Contents:

🏆 Introduction
📚 Background on Nvidia's Data Center Systems Engineering Team
🖥️ Building Super Pods for High-Scale HPC and AI Systems
🔌 Compute and Storage Infrastructure of EOS
💾 Storage Architecture and Design Goals
🔬 Extensive Cluster Instrumentation and Telemetry
⚡️ Leveraging DDN Hot Nodes Feature for Improved Performance
👥 Collaboration with DDN for Ongoing Development
🚀 Future Performance Improvements and Upgrades
✨ Conclusion

Introduction 🏆

Dans cet article, nous allons plonger dans le travail de l'équipe d'ingénierie des systèmes de centres de données chez Nvidia et sa collaboration avec les systèmes Exos Scaler de DDN sur leur dernier superordinateur EOS. Nous verrons comment ils ont conçu et construit des systèmes HPC et IA de haute performance, en mettant l'accent sur l'architecture de stockage et les améliorations de performance obtenues grâce à la fonctionnalité DDN Hot Nodes. De plus, nous examinerons leur partenariat continu avec DDN pour le développement et les améliorations futures, ainsi que les objectifs de conception et d'amélioration des performances de leur système EOS.

Background on Nvidia's Data Center Systems Engineering Team 📚

L'équipe d'ingénierie des systèmes de centres de données chez Nvidia est responsable de la conception et de la construction de systèmes HPC et IA à grande échelle, en s'appuyant sur les toutes dernières technologies matérielles disponibles. Leur équipe est celle qui a créé le superordinateur Seline, qui a fait ses débuts à la cinquième place du Top 500 en juin 2020 avec une performance de 63 pétaflops HPL. Utilisant le stockage DDN AI 400X et les systèmes DGX A100, ils ont développé une expertise allant du niveau du centre de données aux applications, en passant par le réseau et le stockage. Leur dernier système, EOS, utilise les technologies Nvidia DGX H100 et Mellanox NDR InfiniBand, et a fait ses débuts à la neuvième place du Top 500 avec une performance de 121 pétaflops HPL.

Building Super Pods for High-Scale HPC and AI Systems 🖥️

Les systèmes super pods sont construits de manière hiérarchique, permettant un déploiement progressif et une augmentation de l'échelle. En utilisant des unités évolutives, ils peuvent déployer jusqu'à 128 nœuds dans des pods, et ensuite déployer plusieurs pods pour atteindre une échelle élevée. Les interconnexions du calcul et du stockage sont réalisées via des fabricants InfiniBand non-bloquants, avec une topologie en arbre grassouillet à trois niveaux. Les pods sont liés entre eux via des commutateurs principaux. Par exemple, EOS est construit avec cinq pods, et la répartition du stockage est faite de manière équilibrée pour obtenir de bonnes performances.

Compute and Storage Infrastructure of EOS 🔌

EOS fait usage des technologies Nvidia DGX H100 et Mellanox NDR InfiniBand pour le calcul et les interconnexions réseau. En ce qui concerne le stockage, ils utilisent 48 appareils de stockage AI 400X connectés via InfiniBand HDR. Ces connexions sont réparties sur quatre des cinq pods, avec la possibilité d'ajouter davantage de stockage à l'avenir en fonction des besoins en performances et en capacité. L'objectif avec EOS était d'atteindre une performance minimale de 2 téraoctets par seconde en lecture pour prendre en charge l'entraînement du Deep Learning à grande échelle.

Storage Architecture and Design Goals 💾

La stratégie de stockage sur EOS repose sur l'utilisation intensive de la fonctionnalité DDN Hot Nodes. Grâce à cette fonctionnalité, une partie de la mémoire NVMe locale des nœuds DGX H100 est utilisée pour mettre en cache les données lues à partir du stockage parallèle. Cela réduit la latence et la congestion du réseau, permettant aux tâches de calcul d'être plus efficaces. Le cache local est dynamiquement construit à mesure que les fichiers sont lus à partir du stockage parallèle, et les lectures répétées sont redirigées vers le cache local plutôt que d'aller au stockage parallèle. Cela améliore considérablement les performances et permet l'exécution simultanée de plusieurs tâches sur le système sans interférence.

Extensive Cluster Instrumentation and Telemetry 🔬

L'équipe de Nvidia effectue une instrumentation approfondie de leurs clusters à différents niveaux, du centre de données aux nœuds, en passant par le réseau et les différentes couches logicielles. Ils utilisent la télémesure pour collecter des métriques système via l'API d'accessibilité de la SFA de DDN, et les exportent vers leur système de surveillance basé sur Prometheus et Grafana. Cela leur permet d'observer le comportement du système à tous les niveaux et de valider les objectifs de performances. Cette approche leur permet de détecter les goulots d'étranglement et les problèmes de réseau, et d'optimiser leurs performances globales.

Leveraging DDN Hot Nodes Feature for Improved Performance ⚡️

La fonctionnalité DDN Hot Nodes joue un rôle clé dans l'amélioration des performances du stockage sur EOS. Grâce à cette fonctionnalité, les lectures répétées sont redirigées vers le cache local des nœuds DGX H100, réduisant ainsi la latence et libérant la congestion du réseau. Cela permet d'améliorer les performances globales du système, en optimisant l'utilisation des ressources de stockage et en minimisant le temps consacré aux opérations d'E/S. Cette fonctionnalité est particulièrement bénéfique pour les charges de travail d'apprentissage en profondeur, où les lectures de données sont fréquentes et consomment beaucoup de temps. Cependant, il convient de noter que la fonctionnalité DDN Hot Nodes ne prend pas en charge la mise en cache des écritures, car cela n'est pas considéré comme crucial pour les charges de travail d'IA exécutées sur EOS.

Collaboration with DDN for Ongoing Development 👥

L'équipe de Nvidia continue de collaborer avec DDN pour le développement et les améliorations futures de leur système de stockage. L'un des domaines clés de collaboration concerne l'intégration de la prise en charge de l'Active Directory de Microsoft dans le système de fichiers Lustre. Cela permet de gérer de manière centralisée les comptes utilisateurs et d'assurer une traçabilité complète des lectures et écritures sur le système de stockage. Nvidia et DDN s'efforcent également d'explorer les futures améliorations de performance en mettant l'accent sur les mises à niveau du réseau et la configuration optimale de la fonctionnalité DDN Hot Nodes et du cache client persistant.

Future Performance Improvements and Upgrades 🚀

Nvidia and DDN are committed to continuously improving the performance of the EOS system. This includes exploring future upgrades to the network infrastructure to further enhance the speed and scalability of the system. Additionally, they plan to optimize the configuration of DDN Hot Nodes and Persistent Client Cache to achieve even better performance. These ongoing efforts aim to maximize the efficiency of EOS in handling deep learning workloads and ensure that it remains at the forefront of AI computing.

Conclusion ✨

Dans cet article, nous avons exploré le travail réalisé par l'équipe d'ingénierie des systèmes de centres de données chez Nvidia pour concevoir et construire des systèmes HPC et IA de haute performance, et leur partenariat avec DDN pour améliorer les performances de stockage sur leur superordinateur EOS. Grâce à la fonctionnalité DDN Hot Nodes, ils ont pu optimiser les lectures répétées et réduire la congestion du réseau, améliorant ainsi l'efficacité globale du système. Leur partenariat continu avec DDN garantit également des améliorations futures pour répondre aux besoins croissants de l'IA. Avec ces améliorations et optimisations constantes, Nvidia s'efforce de rester à la pointe de l'informatique IA et de fournir des solutions puissantes pour les charges de travail de deep learning.

Resources: