Giới thiệu về MosaicML LLM Cloud và Demo

Find AI Tools
No difficulty
No complicated process
Find ai tools

Giới thiệu về MosaicML LLM Cloud và Demo

Contents:

  1. Giới thiệu về Mosaic ML Cloud
  2. Hướng dẫn sử dụng công cụ MCLI
  3. Cấu hình cluster cho các công việc huấn luyện
  4. Quản lý các công việc huấn luyện
  5. Tự động mở rộng công việc huấn luyện
  6. Huấn luyện mô hình GPT với 8 GPU
  7. Mở rộng huấn luyện với nhiều GPU hơn
  8. Huấn luyện mô hình GPT với 16 GPU
  9. Huấn luyện mô hình lớn với 128 GPU
  10. So sánh hiệu suất huấn luyện với các mô hình khác nhau

Giới thiệu về Mosaic ML Cloud

Trong việc huấn luyện các mô hình ngôn ngữ lớn, việc xây dựng một giải pháp hiệu suất cao để xử lý dung lượng dữ liệu lớn cùng với kích thước của các mô hình này đặt ra những thách thức về kỹ thuật. Tuy nhiên, với Mosaic ML Cloud và ngăn xếp llm, chúng tôi đã giải quyết tất cả những vấn đề đó để người dùng không cần lo lắng về chúng. Trong bài demo này, chúng tôi sẽ trình bày về Mosaic ML Cloud và cách dễ dàng chạy và theo dõi các công việc huấn luyện ml. Chúng tôi cũng sẽ tự động mở rộng quy mô huấn luyện trên nhiều GPU và nhiều node, tổ chức dữ liệu trên Cloud một cách tự nhiên với các phương pháp hiệu suất thuật toán và hệ thống để làm cho việc huấn luyện phân tán trở nên đơn giản và kỳ diệu để sử dụng.

Hướng dẫn sử dụng công cụ MCLI

Xem danh sách cluster

Để xem các cluster có sẵn để gửi các công việc, chúng ta có thể sử dụng công cụ mcli để truy vấn. Dưới đây là câu lệnh để xem danh sách các cluster:

mcli xem cluster

Chúng ta có thể thấy có nhiều cluster khác nhau được cung cấp bởi nhiều Cloud provider và có thể xem GPU types và số lượng GPU khả dụng cho mỗi công việc huấn luyện.

Xem các công việc huấn luyện trước đó

Để xem các công việc huấn luyện đã chạy trước đó, chúng ta có thể sử dụng câu lệnh sau:

mcli xem runs

Chúng ta có thể xem thông tin chi tiết về mỗi công việc đã chạy trước đó, bao gồm các thông tin về mô hình, quốc kỳ và cấu hình huấn luyện.

Quản lý các credential

Để xem các credential đã được áp dụng cho mục đích xác thực của bạn, chúng ta có thể sử dụng câu lệnh sau:

mcli xem secrets

Chúng ta có thể xem các loại credential như SSH Keys, API keys và nhiều hơn nữa, mà chúng ta đã áp dụng cho quá trình huấn luyện.

Cấu hình cluster cho các công việc huấn luyện

Để bắt đầu một công việc huấn luyện, chúng ta cần Hai thứ: một tệp YAML để hướng dẫn các công cụ lập lịch công việc huấn luyện trên Cloud về những gì cần chạy và ở đâu, và chúng ta cần chạy câu lệnh mcli sử dụng tệp đó. Dưới đây là một số gì đó đang diễn ra phía trong: chúng ta đang kéo hình ảnh container để chạy công việc huấn luyện, trong đó có tất cả các trình điều khiển và thư viện đã được cài đặt và đã được cấu hình trước, chúng ta đang sao chép dự án git với mã huấn luyện, chúng ta đang kết nối với các công cụ theo dõi và theo dõi thí nghiệm như Weights and Biases hoặc Comet, chúng ta đang chuẩn bị tất cả các thiết lập cần thiết cho việc truyền dữ liệu từ lưu trữ Cloud, chúng ta đang chú ý đến cấu hình nhiều quy trình, cấu hình song song dữ liệu với Pi Torch FSDP, cấu hình hệ thống để hoạt động tối ưu để tám GPU có thể xử lý hàng tỷ token dễ dàng và cập nhật công việc để vừa khớp với bộ nhớ của tám gpu. Tất cả các việc triển khai này xảy ra trong vòng vài giây.

Quản lý các công việc huấn luyện

Để quản lý các công việc huấn luyện, chúng ta có thể sử dụng công cụ mcli. Chúng ta đã xem cách xem danh sách cluster và các công việc huấn luyện trước đó, chúng ta cũng đã xem cách xem các credential đã áp dụng. Bây giờ chúng ta sẽ tiếp tục với các tác vụ khác như khởi chạy, xóa và mở rộng các công việc huấn luyện.

Khởi chạy một công việc huấn luyện

Để khởi chạy một công việc huấn luyện, chúng ta cần tệp YAML mô tả hướng dẫn công cụ lập lịch và cấu hình huấn luyện. Dưới đây là câu lệnh để khởi chạy một công việc huấn luyện mô hình GPT với 8 GPU:

mcli chạy công việc --tệp config.yaml

Chúng ta chỉ cần thay đổi tệp cấu hình để điều chỉnh quy mô công việc huấn luyện và số lượng GPU. Quá trình này nhanh chóng và dễ dàng và công việc huấn luyện phân tán một cách tự động trên các GPU khả dụng.

Xóa một công việc huấn luyện

Nếu chúng ta muốn xóa một công việc huấn luyện đã chạy, chúng ta có thể sử dụng câu lệnh sau:

mcli xóa công việc --chạy công việc-id

Chúng ta chỉ cần cung cấp công việc ID của công việc muốn xóa và công việc sẽ được xóa khỏi hệ thống. Quá trình này đơn giản và dễ dàng để quản lý các công việc huấn luyện của chúng ta.

Tự động mở rộng công việc huấn luyện

Mosaic ML Cloud có khả năng tự động mở rộng quy mô công việc huấn luyện để tăng hiệu suất. Với một dòng lệnh đơn giản, chúng ta có thể mở rộng công việc huấn luyện từ 8 GPU lên 16 GPU và công việc sẽ tự động được phân tán trên hai máy khác nhau có mỗi máy có 8 GPU. Quá trình này được quản lý bởi Mosaic ML Cloud mà không cần chúng ta lo lắng về cấu hình hạ tầng hoặc thiết lập huấn luyện phân tán. Chúng ta chỉ cần thay đổi cấu hình để chỉ định số lượng GPU mong muốn và công việc huấn luyện diễn ra với hiệu suất tăng thêm gần như tuyến tính.

Huấn luyện mô hình GPT với 8 GPU

Chuẩn bị công việc huấn luyện

Trước khi chạy một công việc huấn luyện mô hình GPT với 8 GPU, chúng ta cần chuẩn bị cấu hình công việc trong tệp YAML. Chúng ta cần chỉ định mô hình, số lượng GPU, kích thước batch và các thiết lập khác để tùy chỉnh quá trình huấn luyện.

# Cấu hình cho công việc huấn luyện mô hình GPT với 8 GPU
model: gpt
gpu: 8
batch_size: 16
...

Chúng ta có thể tinh chỉnh các thiết lập khác theo nhu cầu của mình, bao gồm kích thước batch, số lượng epoch và tốc độ học.

Chạy công việc huấn luyện

Sau khi chuẩn bị cấu hình công việc, chúng ta có thể chạy công việc huấn luyện bằng cách sử dụng công cụ mcli và tệp YAML đã tạo. Dưới đây là câu lệnh để chạy công việc huấn luyện mô hình GPT với 8 GPU:

mcli chạy công việc --tệp config.yaml

Quá trình huấn luyện sẽ tự động bắt đầu và chúng ta có thể theo dõi quá trình này thông qua các công cụ theo dõi đã cấu hình.

Mở rộng huấn luyện với nhiều GPU hơn

Xóa công việc huấn luyện hiện có

Trước khi mở rộng công việc huấn luyện sử dụng nhiều GPU hơn, chúng ta cần xóa công việc huấn luyện hiện có. Sử dụng câu lệnh sau để xóa công việc:

mcli xóa công việc --chạy công việc-id

Đảm bảo bạn cung cấp công việc ID chính xác của công việc huấn luyện mà bạn muốn xóa.

Chuẩn bị cấu hình cho công việc mở rộng

Sau khi xóa công việc huấn luyện hiện có, chúng ta cần chuẩn bị cấu hình mới cho công việc mở rộng với nhiều GPU hơn. Chỉnh sửa tệp YAML và thay đổi số lượng GPU mong muốn.

# Cấu hình cho công việc mở rộng huấn luyện với nhiều GPU hơn
model: gpt
gpu: 16
batch_size: 32
...

Bên cạnh số lượng GPU, chúng ta cũng có thể tinh chỉnh các thiết lập khác, chẳng hạn như kích thước batch và tốc độ học.

Chạy công việc mở rộng huấn luyện

Sau khi đã chuẩn bị cấu hình, chúng ta có thể chạy công việc huấn luyện với nhiều GPU hơn bằng cách sử dụng công cụ mcli và tệp YAML mới. Dưới đây là câu lệnh để chạy công việc mở rộng:

mcli chạy công việc --tệp config.yaml

Công việc huấn luyện sẽ được bắt đầu và tự động mở rộng trên các GPU mới, sử dụng các thiết lập đã được chỉ định trong tệp cấu hình.

Huấn luyện mô hình GPT với 16 GPU

Để huấn luyện mô hình GPT với 16 GPU, chúng ta cần thay đổi cấu hình trong tệp YAML để chỉ định số lượng GPU mong muốn.

# Cấu hình cho công việc huấn luyện mô hình GPT với 16 GPU
model: gpt
gpu: 16
batch_size: 32
...

Chúng ta có thể điều chỉnh các thiết lập khác, bao gồm kích thước batch và tốc độ học, theo nhu cầu của mình.

Chạy công việc huấn luyện bằng cách sử dụng câu lệnh sau:

mcli chạy công việc --tệp config.yaml

Quá trình huấn luyện sẽ tự động mở rộng trên 16 GPU và sử dụng các thiết lập đã được chỉ định trong tệp cấu hình. Hiệu suất huấn luyện sẽ tăng gần như tuyến tính và bạn có thể theo dõi quá trình này thông qua các công cụ theo dõi đã được cấu hình.

Huấn luyện mô hình lớn với 128 GPU

Mosaic ML Cloud cung cấp khả năng huấn luyện mô hình lớn với 128 GPU một cách dễ dàng. Chỉ cần thay đổi số lượng GPU trong tệp cấu hình để chạy công việc huấn luyện với số lượng GPU mong muốn.

# Cấu hình cho công việc huấn luyện mô hình lớn với 128 GPU
model: large_gpt
gpu: 128
batch_size: 256
...

Chúng ta cũng có thể điều chỉnh các thiết lập khác, như kích thước batch và tốc độ học, để đáp ứng yêu cầu cụ thể của mình.

Sau khi đã cấu hình công việc, chạy công việc huấn luyện bằng cách sử dụng câu lệnh sau:

mcli chạy công việc --tệp config.yaml

Quá trình huấn luyện sẽ tự động mở rộng trên 128 GPU và sử dụng các thiết lập đã được chỉ định trong tệp cấu hình. Mosaic ML Cloud sẽ xử lý tất cả các tác vụ cấu hình hạ tầng và huấn luyện phân tán, chỉ cần chúng ta tập trung vào công việc huấn luyện của mình.

So sánh hiệu suất huấn luyện với các mô hình khác nhau

Để so sánh hiệu suất huấn luyện giữa các mô hình khác nhau, chúng ta có thể thực hiện các công việc huấn luyện trên cùng một số lượng GPU và so sánh thời gian hoàn thành và tỷ lệ tăng tốc.

Dưới đây là một so sánh giữa công việc huấn luyện mô hình GPT với 1 tỷ tham số và 128 GPU và công việc huấn luyện mô hình GPT với 70 tỷ tham số và 128 GPU. Qua thử nghiệm, chúng tôi đã thấy rằng hiệu suất huấn luyện tăng gần như tuyến tính khi kích thước mô hình tăng lên.

So sánh hiệu suất huấn luyện:

  • Mô hình GPT với 1 tỷ tham số trên 128 GPU: thời gian huấn luyện, tỷ lệ tăng tốc
  • Mô hình GPT với 70 tỷ tham số trên 128 GPU: thời gian huấn luyện, tỷ lệ tăng tốc

Với Mosaic ML Cloud, chúng ta có thể dễ dàng mở rộng và đào tạo các mô hình ngôn ngữ lớn với hiệu suất cao và quản lý tiện lợi.

Tổng kết

Trong bài viết này, chúng tôi đã giới thiệu về Mosaic ML Cloud - một giải pháp huấn luyện mô hình ngôn ngữ lớn, dễ sử dụng và hiệu quả. Chúng tôi đã hướng dẫn sử dụng công cụ MCLI để xem danh sách cluster, quản lý các công việc huấn luyện và xem các credential đã được áp dụng. Chúng tôi cũng đã trình bày cách cấu hình và chạy các công việc huấn luyện với số lượng GPU khác nhau và so sánh hiệu suất huấn luyện của các mô hình khác nhau. Với sự hỗ trợ của Mosaic ML Cloud, việc huấn luyện các mô hình ngôn ngữ lớn trở nên dễ dàng và nhanh chóng.

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.