Découvrez AWS Trainium et boostez vos innovations en deep learning!

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI NEW FR Découvrez AWS Trainium et boostez vos innovations en deep learning!

Découvrez AWS Trainium et boostez vos innovations en deep learning!

Table of Contents:

Introduction
The Role of AI in Today's World
The Growth of AI Models
The Demand for Compute and Acceleration Technologies
Introduction to Trainium
Trainium's High Performance and Low Cost
Trainium's Architecture and Features
Trainium in Distributed Training
Neuron SDK Integration for Trainium
Trainium's Impact on Model Training
Performance and Scale of Trainium
Trainium's Software Stack: PyTorch XLA
Optimizing Training with Trainium
The Future of Trainium and Inferentia
Conclusion

Introduction

Bienvenue ! Nous sommes ravis de vous accueillir ici pour partager davantage sur la façon dont vous pouvez atteindre des performances élevées dans vos charges de travail d'apprentissage automatique en utilisant les instances basées sur Trainium, tout en obtenant un coût de formation réduit. Je m'appelle Nitin Nagarkatte, et je suis responsable principal de produit chez AWS. Aujourd'hui, je suis accompagné de Ron Diamant, architecte en chef de Trainium, et de Hamid Shojanazeri, spécialiste en IA appliquée chez Meta. Commençons !

The Role of AI in Today's World

L'IA est partout, comme nous le savons tous. Au cours des dernières années, nous avons assisté à une prolifération de nouvelles et passionnantes technologies et expériences alimentées par l'IA, que ce soit la vision par ordinateur, la reconnaissance vocale, les systèmes de recommandation et de personnalisation, ou même la robotique et l'automatisation industrielle. Toutes les avancées que nous avons vues dans ce domaine ne représentent que la pointe de l'iceberg de ce que nous pouvons réaliser grâce à l'IA. Vous, en tant qu'innovateur, repoussez constamment les limites pour obtenir une précision prédictive plus élevée et offrir de nouvelles expériences en utilisant les technologies de l'IA.

The Growth of AI Models

La principale raison qui alimente ces nouvelles capacités est la taille et la complexité des modèles d'IA modernes. Au cours des dernières années, le nombre de paramètres par modèle a connu une croissance exponentielle, multiplié par près de 10 chaque année, et cela se poursuit à ce rythme. Ce que nous observons, c'est un incroyable effet de rétroaction qui alimente cette croissance exponentielle. À mesure que nous construisons des modèles de plus en plus complexes et plus grands, nous constatons une amélioration de la qualité des prédictions et une expansion considérable des domaines d'application que nous pouvons couvrir grâce à l'IA. À mesure que ces applications se développent, nous constatons une augmentation de l'adoption de ces applications, ce qui entraîne une demande accrue de technologies de calcul et d'accélération pour alimenter ces modèles d'IA et les rendre accessibles à un public de plus en plus large. Cette demande croissante se traduit par un investissement accru dans la recherche, l'analyse des performances, les outils et les techniques d'optimisation, ce qui à son tour entraîne non seulement de nouvelles architectures matérielles fondamentales pour accélérer l'IA, mais également de nouvelles techniques et algorithmes d'IA. Toutes ces innovations algorithmiques et architectures matérielles conduisent à encore plus d'applications et à une meilleure qualité que nous, en tant qu'utilisateurs, pouvons consommer. Ce que nous constatons, c'est l'aboutissement de cet effet de rétroaction, essentiellement un cycle virtuel qui se nourrit lui-même et accélère la croissance tout autour de nous.

The Demand for Compute and Acceleration Technologies

Comme vous l'avez peut-être entendu, nous chez Amazon sommes obsédés par l'Aide à nos clients. En examinant toute cette innovation que l'on peut réaliser avec l'IA, nous avons commencé à réfléchir à ce que nous pourrions faire pour vous aider ici. Nous avons donc fait ce que nous savons faire de mieux. Nous avons commencé à investir massivement dans nos services et infrastructures d'IA/ML, en construisant de nouveaux types d'accélérateurs, de serveurs et de logiciels, en passant par la gestion des services. Notre objectif ici était principalement de fournir des performances élevées, de nouvelles capacités à un coût bien inférieur pour vous tous. Et nous travaillons en fait avec beaucoup d'entre vous en étroite collaboration pour profiter de toutes ces capacités que nous apportons, pour accélérer vos propres cycles d'innovation.

Introduction to Trainium

L'un des domaines principaux dans lesquels nous investissons très activement est celui des architectures et des accélérateurs optimisés pour l'IA, afin de rester en avance sur cette courbe exponentielle que nous avons vue il y a quelques minutes. Inferentia a été notre premier accélérateur dans cet espace, spécifiquement optimisé pour accélérer la charge de travail d'inférence, et Trainium est le même pour les charges de travail d'apprentissage. Les deux ont été construits à partir de zéro pour offrir des performances élevées à très faible coût. Pour faciliter l'adoption de ces accélérateurs, nous avons également développé le SDK Neuron, qui est intégré nativement aux frameworks ML standard du secteur, tels que PyTorch et TensorFlow. Avec le SDK Neuron, vous pouvez facilement adopter des instances d'accélérateurs basées à la fois sur Inferentia et Trainium, sans avoir à apporter de modifications à vos applications AI sous-jacentes ou à vos modèles ML.

Trainium's High Performance and Low Cost

Comme je l'ai mentionné précédemment, Inferentia était notre première incursion dans cet espace. Inferentia est spécifiquement optimisé pour l'inférence et offre des performances d'inférence élevées à un coût d'inférence très faible dans le cloud. Nous avons lancé les instances Inf1 en 2019, basées sur Inferentia. Chaque serveur d'inférence peut accueillir jusqu'à 16 accélérations Inferentia et peut fournir un téraflop en virgule flottante bfloat16 de calcul et 2 pétaOPS de calcul d'ingestion. En termes de performances de bout en bout, les instances basées sur Inf1 offrent jusqu'à 25% de performances supérieures par rapport aux instances optimisées pour l'inférence G5, à un coût jusqu'à 70% inférieur par inférence. C'est une énorme économie. Et nous avons constaté que de nombreux utilisateurs sont en mesure de tirer parti de ces performances ainsi que des économies de coûts pour optimiser leurs expériences utilisateur en termes de performances de bout en bout, tout en réduisant considérablement leurs coûts opérationnels. Des entreprises telles qu'Airbnb et Snap, ainsi que des clients de grande entreprise comme Conde Nast et NTTPC, jusqu'à de nombreuses startups en pleine croissance, utilisent déjà massivement les instances basées sur Inf1. Et bon nombre de ces clients ont réussi à obtenir d'incroyables résultats en utilisant Inf1. Par exemple, Airbnb a réussi à obtenir deux fois plus de débit pour l'inférence basée sur GPU pour leurs modèles PyTorch dès la sortie de la boîte. De plus, de nombreuses charges de travail d'inférence d'Amazon comme Prime Video et de nombreux services d'IA d'Amazon tels que Alexa et Textract exploitent également massivement les instances Inf1. Plus récemment, nous avons constaté qu'Amazon.com a déplacé ses charges de travail d'inférence vers des instances Inf1, réduisant ainsi ses coûts d'exploitation de 85% tout en bénéficiant de latences bien meilleures par rapport aux instances précédentes. C'est un progrès et une traction incroyables que nous constatons ici.

Trainium's Architecture and Features

Passons maintenant à Trainium, qui est le sujet de notre discussion d'aujourd'hui. Comme je l'ai mentionné précédemment, Trainium est notre accélérateur spécialement conçu pour les charges de travail d'apprentissage automatique. Trainium offre les meilleures performances au coût le plus faible pour former des modèles ML dans Amazon EC2 aujourd'hui. Pour être plus précis, Trainium offre 3,4 pétaFLOPS de calcul bfloat16, ce qui représente environ 40% de performances supérieures par rapport à la meilleure instance basée sur GPU que nous avons aujourd'hui, à savoir P4d. De plus, Trainium peut fournir 840 téraFLOPS de calcul FP32, ce qui représente cinq fois de plus que la meilleure instance basée sur GPU que nous avons. Cela est particulièrement important lorsque nous considérons les applications scientifiques où la précision et l'exactitude de FP32 sont beaucoup plus importantes que la vitesse que nous pouvons atteindre avec bfloat16. Pour compléter cette puissance de calcul, chaque serveur Trainium est équipé de 512 gigaoctets de mémoire haute bande passante, alimentée par un débit de bande passante mémoire de pointe de 13,1 téraoctets par seconde.

Pour utiliser efficacement cette puissance de calcul, une connectivité réseau de haute qualité est essentielle. Trainium est équipé d'une bande passante de réseau de 800 gigabits par seconde, grâce à l'adaptateur de tissu élastique. Il s'agit de la plus haute bande passante réseau prise en charge dans Amazon EC2 aujourd'hui. Et nous ne nous arrêtons pas là, car nous constatons que les modèles continuent à croître et que les besoins de communication de ces grands modèles continuent à s'étendre. Nous travaillons donc également sur le Type d'instance Trn1n, qui doublera la bande passante, passant ainsi de 800 gigabits par seconde à 1600 gigabits par seconde, soit 1,6 téraoctets par seconde. Maintenant, parlons un peu plus en détail de la manière dont nous concevons et construisons réellement les serveurs Trainium.

Trainium in Distributed Training

Emballer une telle capacité de calcul dans un seul serveur est bien, mais ce n'est tout simplement pas suffisant. Les modèles d'IA modernes ont tendance à être très grands, comme nous l'avons mentionné précédemment, et nécessitent des milliers d'accélérations pour fonctionner de manière optimale et dans un laps de temps relativement court. En fait, pour les modèles à la pointe de la technologie, nous constatons que des dizaines de milliers d'accélérations sont nécessaires pour s'exécuter en un temps raisonnable. C'est pourquoi nous déployons Trn1 dans les plus grands clusters ultraperformants que nous ayons construits dans EC2 aujourd'hui. Chaque cluster ultraperformant Trn1 peut accueillir jusqu'à 30 000 accélérations Trainium, toutes connectées les unes aux autres via un réseau EFA à scalabilité améliorée et sans blocage. Prenons un Instant pour réfléchir à cette échelle. Plus de 30 000 accélérations Trainium reliées ensemble par un réseau EFA sans blocage, délivrant ensemble plus de 6 exaFLOP de capacité de calcul d'entraînement optimisée. Cette échelle aide vraiment nos clients à adapter à la demande leurs grands modèles d'IA pour répondre aux besoins en ressources, créant essentiellement une élasticité au niveau de la super-informatique.

Neuron SDK Integration for Trainium

Parlons maintenant des performances. En termes de performance de bout en bout, nous avons mesuré que Trainium fournit une augmentation de plus de 1,5 fois du débit par rapport à nos meilleures instances basées sur GPU aujourd'hui, à un coût de formation jusqu'à 50% inférieur. Cette combinaison de hautes performances et de faibles coûts peut vous aider à former plus rapidement, à itérer davantage et même à entraîner des modèles beaucoup plus grands avec votre budget de formation existant. Cela est très important, compte tenu du coût élevé de la formation de modèles vraiment grands.

The Future of Trainium and Inferentia

Avant de conclure, je voudrais également vous donner un aperçu de ce qui est à venir. Nous investissons massivement à la fois dans les lignées Inferentia et Trainium et sommes pleinement engagés à vous fournir une infrastructure d'apprentissage en profondeur de classe mondiale. Cette semaine, nous avons annoncé que l'instance Inf2 basée sur Inferentia 2 est maintenant disponible en préversion. Inf2 offre une puissance de calcul 2,5 fois supérieure à celle d'Inf1 et une bande passante mémoire 15 fois supérieure. Inf2 est également doté d'une interconnexion dédiée de puce à puce entre les dispositifs Inferentia 2, spécialement optimisée pour le déploiement de grands modèles de langue, comme celui que nous avons discuté aujourd'hui. Mesdames et Messieurs, comme nous l'avons partagé avec vous aujourd'hui, nous investissons massivement dans tous les domaines, du matériel à l'innovation algorithmique logicielle, afin de vous fournir les meilleures infrastructures d'apprentissage en profondeur de classe mondiale. Trn1 est l'instance d'apprentissage en profondeur la plus rentable et la plus performante que nous ayons construite à ce jour, et elle est disponible. Vous pouvez en lancer une aujourd'hui et l'essayer. Le code QR dans le coin vous dirigera directement vers notre page de prêt et pourra être votre première étape pour obtenir 50% de performances supplémentaires et réduire de moitié vos coûts de formation. Mesdames et Messieurs, merci beaucoup d'avoir été avec nous aujourd'hui. Nous apprécions vraiment votre temps. N'oubliez pas de remplir un sondage. Et je pense que nous avons un peu de temps pour les questions, pas beaucoup. Nous resterons dans le hall après, si vous souhaitez discuter. Nous serons heureux de vous aider.

L'IA montre sa puissance : Les nouvelles de la semaine qui ont secoué le monde de l'IA !

Annonce des gagnants du hackathon mondial d'IA