Tối ưu hiệu suất lưu trữ cho đào tạo học sâu của Nvidia

Find AI Tools
No difficulty
No complicated process
Find ai tools

Tối ưu hiệu suất lưu trữ cho đào tạo học sâu của Nvidia

Table of Contents

  1. Giới thiệu về đội kỹ thuật trung tâm dữ liệu của Nvidia
  2. Cấu trúc lưu trữ của EOS
  3. Hiệu suất đọc trong quá trình đào tạo học sâu
  4. Sử dụng tính năng hot nodes của ddn để cải thiện hiệu suất
  5. Sự phối hợp giữa Nvidia và ddn để tối ưu hiệu năng
  6. Phát triển sự hỗ trợ đa vùng trong hệ thống lưu trữ Luster
  7. Khám phá cải tiến hiệu suất tương lai cùng ddn
  8. Kết luận

Giới thiệu về đội kỹ thuật trung tâm dữ liệu của Nvidia 👥

Đội kỹ thuật trung tâm dữ liệu của Nvidia chịu trách nhiệm thiết kế và xây dựng các hệ thống HPC và AI quy mô lớn từ đầu, với mục tiêu đạt hiệu năng trí tuệ nhân tạo cao cùng khả năng đa dạng ứng dụng. Đội kỹ thuật của chúng tôi đã xây dựng siêu máy tính Seline, được xếp hạng thứ 5 trong danh sách Top 500 vào tháng 6 năm 2020 với hiệu năng HPL 63 peda flops. Chúng tôi đã sử dụng lưu trữ AI 400x của ddn cùng các hệ thống dgx a100. Mới đây, chúng tôi cũng ra mắt hệ thống mới của mình, EOS, sử dụng dgx h100 của Nvidia và melanox ndr infiniband của ddn. EOS đã xếp hạng thứ 9 trong danh sách Top 500 với hiệu năng HPL 121 ptif flops, gấp đôi so với Seline. Đội kỹ thuật của chúng tôi gồm các chuyên gia từ cấp trung tâm dữ liệu, ứng dụng, mạng và lưu trữ. Trong bài viết này, tôi sẽ giới thiệu một số công việc mà đội kỹ thuật của tôi đã thực hiện với hệ thống lưu trữ ddn's exos scaler trên EOS.

Cấu trúc lưu trữ của EOS 🗄️

Hệ thống của chúng tôi được xây dựng dựa trên cấu trúc thụ động có thể mở rộng. Chúng tôi triển khai các đơn vị mở rộng có khả năng mở rộng từng bước để xây dựng các pods quy mô lớn. Mỗi pod có thể bao gồm từ 32 đến 128 node. Chúng tôi triển khai nhiều pods để tăng quy mô theo nhu cầu. Về mạng và lưu trữ, chúng tôi sử dụng Fabric infiniband ndr riêng biệt không chặn cho cả hệ thống HPC và AI. Mạng được kết nối theo cấu trúc cây có hai mức. Với lưu trữ, chúng tôi phân bổ các thiết bị lưu trữ AI 400x điều hợp qua fabric infiniband hdr. Mỗi Pod có 48 thiết bị lưu trữ kết nối và kết nối Infiniband đã được lập độ ở bốn trên năm pods. Bằng cách phân bổ lưu trữ trên các pods, chúng tôi đảm bảo việc sử dụng cổng và mạng ổn định. Hệ thống EOS được thiết kế với mục tiêu đạt hiệu năng đọc tối thiểu 2 terabytes/giây để hỗ trợ huấn luyện học sâu quy mô lớn.

Hiệu suất đọc trong quá trình đào tạo học sâu 🚀

Đào tạo học sâu (DL training) là quá trình đọc dữ liệu tốn nhiều thời gian nhất. Hệ thống của chúng tôi sử dụng các tập dữ liệu lớn được lưu trữ trên hệ thống lưu trữ song song, không thể lưu trữ hoàn toàn trên các nút. Dữ liệu được đọc bởi nhiều GPU trên toàn hệ thống và có thể được đọc nhiều lần trong quá trình một tác vụ. Quá trình đào tạo học sâu hoạt động theo cách song song, chia tách dữ liệu trên nhiều nút và huấn luyện mô hình trên từng nút để xác định trọng số chính xác. Chúng tôi sử dụng tính năng hot nodes của ddn, dựa trên lưu trữ client cache của Lustre, để hỗ trợ việc đọc dữ liệu trong quá trình đào tạo. Các GPU lưu trữ 30 terabytes bộ nhớ nvme cục bộ và chúng tôi phân bổ khoảng một nửa cho tính năng hot nodes để xây dựng độ cache động cho dữ liệu được đọc. Chúng tôi cũng sử dụng một nửa còn lại để lưu trữ cache cho một số dữ liệu có sử dụng thường xuyên. Tính năng hot nodes rất hữu ích, giúp giảm công việc đọc trên hệ thống lưu trữ song song và tăng hiệu suất đào tạo. Nó cũng giảm tắc nghẽn trên mạng, cho phép chúng tôi chạy nhiều tác vụ cùng một lúc trên hệ thống mà không lo bị ảnh hưởng.

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.