Hướng dẫn Auto ML cơ bản 2022 | Máy học

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News VN Hướng dẫn Auto ML cơ bản 2022 | Máy học

Hướng dẫn Auto ML cơ bản 2022 | Máy học

Mục lục

Giới thiệu về DataRobot
Bước 0: Chuẩn bị dữ liệu huấn luyện (Tùy chọn)
Bước 1: Đăng nhập vào DataRobot
Bước 2: Nhập dữ liệu vào DataRobot
Bước 3: Nhập biến mục tiêu
Bước 4: Chọn chế độ mô hình hóa
Bước 5: Đi đến trang Dữ liệu
Bước 6: Đánh giá chất lượng dữ liệu
Bước 7: Chọn đặc trưng
Bước 8: Tạo danh sách đặc trưng
Bước 9: Xem danh sách đặc trưng
Bước 10: Kỹ thuật Điều chỉnh đặc trưng
Bước 11: Chọn mô hình
Bước 12: Chọn danh sách đặc trưng
Bước 13: Thay đổi kích thước mẫu (Tùy chọn)
Bước 14: Chọn chạy Cross-Validation (Tùy chọn)
Bước 15: Thêm mô hình
Bước 16: Thay đổi chỉ số đánh giá mô hình (Tùy chọn)
Bước 17: Mô tả mô hình
Bước 18: Đánh giá mô hình
Bước 19: Đồ thị Lift
Bước 20: Đồ thị ROC
Bước 21: Ma trận nhầm lẫn và Ma trận thu nhập
Bước 22: Các chỉ số hiệu suất của mô hình
Bước 23: Ngưỡng của mô hình
Bước 24: Bảng điều tra huấn luyện
Bước 25: Điều chỉnh mô hình
Bước 26: Mở khóa dữ liệu kiểm tra
Bước 27: Đánh giá quan trọng của đặc trưng
Bước 28: Tốc độ so với Độ chính xác
Bước 29: So sánh mô hình
Bước 30: Lựa chọn mô hình
Bước 31: Tạo dự đoán
Bước 32: Tải xuống dự đoán
Kết luận

1. Giới thiệu về DataRobot

Trong hướng dẫn này, chúng ta sẽ tìm hiểu về cách sử dụng DataRobot để xây dựng danh sách các đặc trưng, huấn luyện các mô hình học máy, đánh giá hiệu suất mô hình và thực hiện dự đoán.

2. Bước 0: Chuẩn bị dữ liệu huấn luyện (Tùy chọn)

Để làm được tutorial này, chúng ta cần sử dụng bộ dữ liệu về ung thư vú từ thư viện s k learn. Bạn có thể làm theo notebook này để xuất bộ dữ liệu huấn luyện và thử nghiệm dưới dạng file csv.

3. Bước 1: Đăng nhập vào DataRobot

Sau khi đăng nhập vào ứng dụng DataRobot, bạn sẽ thấy màn hình chính hiển thị.

4. Bước 2: Nhập dữ liệu vào DataRobot

Chúng ta có thể nhập dữ liệu từ các nguồn dữ liệu khác nhau. Trong ví dụ này, chúng ta sẽ nhập dữ liệu huấn luyện về ung thư vú từ máy tính bằng cách nhấp vào nút màu cam Local file.

5. Bước 3: Nhập biến mục tiêu

Bộ dữ liệu dự đoán ung thư vú có biến mục tiêu nhị phân gọi là target. Đây là một biến chỉ mục với giá trị 0 và 1. Giá trị 0 có ý nghĩa là bệnh nhân không mắc ung thư vú, và giá trị 1 có ý nghĩa là bệnh nhân mắc ung thư vú. Sau khi nhập biến mục tiêu, DataRobot tự động tạo biểu đồ cột cho biến này.

6. Bước 4: Chọn chế độ mô hình hóa

DataRobot cung cấp bốn chế độ mô hình hóa khác nhau. Autopilot chọn mô hình dự đoán tốt nhất cho biến mục tiêu. Quick chạy các mô hình được chọn ở kích thước mẫu tối đa. Manual chỉ chạy các mô hình được người dùng chọn. Comprehensive chạy tất cả các mô hình trong kho mô hình, do đó nó có thể mất thời gian để chạy. Chế độ mặc định là Quick. Trong ví dụ này, chúng ta sẽ chọn Manual để chọn mô hình thủ công.

7. Bước 5: Đi đến trang Dữ liệu

Sau khi nhấp vào Bắt đầu, DataRobot tự động đánh giá chất lượng bộ dữ liệu. Tiến trình đánh giá hiển thị phía bên phải màn hình. Sau khi quá trình đánh giá hoàn thành, một cửa sổ hiển thị lên và yêu cầu chúng ta chọn Giới thiệu hoặc Bỏ qua. Trong ví dụ này, chúng ta sẽ chọn Bỏ qua để kiểm tra các đặc trưng trước khi chọn mô hình từ kho mô hình.

8. Bước 6: Đánh giá chất lượng dữ liệu

Sau khi nhấp vào Bỏ qua, chúng ta sẽ thấy trang Tổng kết dữ liệu với các thông tin như tên bộ dữ liệu, số lượng đặc trưng, số lượng bản ghi và số lượng giá trị bị khuyết cho mỗi đặc trưng. Cột đầu tiên là Tên Đặc trưng. Các đặc trưng được sắp xếp theo thứ tự giảm dần dựa trên sự quan trọng của đặc trưng theo mặc định. Nhưng chúng ta có thể thay đổi giá trị sắp xếp bằng cách nhấp vào tiêu đề các cột. Kết quả sắp xếp có thể chuyển đổi giữa thứ tự tăng dần và giảm dần bằng cách nhấp vào tiêu đề của cột. Cột thứ Hai là Chất lượng dữ liệu. Nó hiển thị cảnh báo về các vấn đề tiềm năng về chất lượng dữ liệu như rò rỉ mục tiêu và dữ liệu bất thường. Ví dụ: đặc trưng thứ nhất worst perimeter được xác định là biến rò rỉ mục tiêu có dữ liệu bất thường. Nếu dựa trên kiến thức chuyên môn, chúng ta biết rằng đây không phải là biến rò rỉ mục tiêu, chúng ta có thể bỏ qua cảnh báo rò rỉ mục tiêu này. Nếu chúng ta dự định sử dụng một mô hình không nhạy cảm với các điểm ngoại lệ, cảnh báo về các điểm ngoại lệ có thể bị bỏ qua. Cảnh báo chất lượng dữ liệu không ngăn chúng ta chuyển sang các bước tiếp theo, nó chỉ giúp chúng ta kiểm tra nhanh các vấn đề tiềm tàng. Cột thứ ba là Chỉ số. Nó đại diện cho thứ tự của bộ dữ liệu đầu vào. Ví dụ: biến target có chỉ số là 31. Điều đó có nghĩa là đây là biến thứ 31 trong bộ dữ liệu đầu vào. Cột thứ tư là Quan trọng. Nó hiển thị dưới dạng thanh xanh biểu thị mức độ liên quan của đặc trưng với biến mục tiêu. Cột thứ năm là Loại Trội. Chúng ta có thể thấy rằng tất cả các biến đều ở dạng số cho bộ dữ liệu này. Cột sáu đến cột mười hai hiển thị thống kê tóm tắt cho mỗi biến. Đó là số lượng giá trị duy nhất, số lượng giá trị bị khuyết, trung bình, độ lệch chuẩn, trung vị, giá trị tối thiểu và giá trị tối đa.

9. Bước 7: Chọn đặc trưng

Để chọn các đặc trưng cho các mô hình, chúng ta nhấp vào hộp kiểm bên cạnh Tên Đặc trưng, sau đó bỏ chọn các đặc trưng mà chúng ta không muốn bao gồm trong mô hình. Trong ví dụ này, tôi đã bỏ chọn 3 đặc trưng cuối cùng với độ quan trọng thấp nhất.

10. Bước 8: Tạo danh sách đặc trưng

Nhấp vào + Tạo danh sách đặc trưng màu cam, đặt tên và nhấp vào Tạo danh sách đặc trưng.

11. Bước 9: Xem danh sách đặc trưng

Sau khi nhấp vào Tạo danh sách đặc trưng ở bước 8, danh sách Đặc trưng mặc định đã thay đổi từ Tất cả đặc trưng thành tên danh sách đặc trưng chúng ta vừa tạo. Chúng ta nên kiểm tra xem danh sách phản ánh các thay đổi chúng ta đã thực hiện ở bước 8. Trong ví dụ này, danh sách Đặc trưng mặc định của tôi đã thay đổi thành my_feature_list_1 và 3 đặc trưng cuối cùng đã bị loại bỏ khỏi danh sách.

12. Bước 10: Kỹ thuật Điều chỉnh đặc trưng

Bước này là tùy chọn. Chúng ta có thể thực hiện kỹ thuật điều chỉnh đặc trưng bằng cách nhấp vào nút cam Menu, sau đó chọn Hành động, Tạo biến f(x). Hãy tạo một biến đặc trưng biến đổi được gọi là log_mean_area bằng cách nhập công thức vào hộp Biểu thức. Sau khi nhấp vào nút cam Tạo, chúng ta có thể thấy rằng đặc trưng mới log_mean_area đứng dưới đặc trưng gốc mean_area và phiên bản logarithm không có cảnh báo chất lượng dữ liệu nào.

13. Bước 11: Chọn mô hình

Nhấp vào Mô hình từ menu trên cùng, sau đó nhấp vào + Thêm mô hình mới. Dưới Mô hình chọn, nhấp vào tên mô hình mặc định, sau đó tìm kiếm tên mô hình. Chúng ta muốn chọn một mô hình XGBoost, và từ khóa tìm kiếm extreme cho chúng tôi các phiên bản khác nhau của mô hình XGBoost. Tôi đã chọn phiên bản BP40 với early stopping.

14. Bước 12: Chọn danh sách đặc trưng

Dưới Chạy trên danh sách đặc trưng, hãy chọn danh sách đặc trưng chúng ta vừa tạo có tên my_feature_list_1. Đây là danh sách các thông số dự đoán mà chúng tôi sẽ sử dụng cho mô hình.

15. Bước 13: Thay đổi kích thước mẫu (Tùy chọn)

DataRobot mặc định đặt 20% dữ liệu làm tập kiểm tra và chia phần còn lại của dữ liệu thành 5 folds để sử dụng kỹ thuật kiểm định chéo. Kích thước mẫu có thể thay đổi bằng cách nhấp vào nút cam + dưới mục Kích thước mẫu.

16. Bước 14: Chọn chạy Cross-Validation (Tùy chọn)

Dưới Cross-Validation runs, chúng ta có thể chọn giữa chạy kiểm định chéo cho một fold hay cho tất cả năm folds. Giá trị mặc định là 1 fold.

17. Bước 15: Thêm mô hình

Sau khi chọn tất cả các tùy chọn mô hình, hãy nhấp vào nút cam Thêm mô hình, mô hình sẽ được thêm vào bảng xếp hạng. Quá trình huấn luyện mô hình được hiển thị trên thanh bên phải.

18. Bước 16: Thay đổi chỉ số đánh giá mô hình (Tùy chọn)

Để thay đổi chỉ số đánh giá hiệu suất mô hình, hãy nhấp vào nút Đóng bên cạnh nút cam Thêm mô hình màu cam, bạn sẽ thấy chỉ số mặc định là LogLoss. Chúng ta có thể thay đổi nó thành các chỉ số khác như AUC, thông số kiểm tra và cross-validation của mô hình sẽ được cập nhật theo.

19. Bước 17: Mô tả mô hình

Sau khi quá trình huấn luyện mô hình hoàn tất, hãy nhấp vào tên mô hình, thanh bên mô hình sẽ được mở rộng để hiển thị thêm thông tin. Phần Mô tả màu xanh dương có chứa tất cả thông tin về quá trình huấn luyện và dự đoán mô hình.

20. Bước 18: Đánh giá mô hình

Thông tin đánh giá mô hình được đưa vào tab Đánh giá. Phần ngưỡng mô hình có thể được điều chỉnh bằng cách nhấp vào số ngay bên cạnh Ngưỡng Hiển thị. Chúng ta có thể tối đa hóa F1 Score, tối đa hóa MCC, hoặc tối đa hóa lợi nhuận. Ngoài ra, chúng ta cũng có thể chọn một ngưỡng tùy chỉnh và áp dụng nó bằng cách nhấp vào nút cam Sử dụng làm Ngưỡng Dự đoán.

21. Bước 19: Đồ thị Lift

Tab Biểu đồ Lift có biểu đồ lift được vẽ cho cả giá trị dự đoán và giá trị thực tế. Dưới biểu đồ lift, có các tùy chọn Đánh dấu dữ liệu, Số lượng Bins, Sắp xếp Bins và Bật Bộ mở rộng.

22. Bước 20: Đồ thị ROC

Tab Biểu đồ ROC có phân phối dự đoán, đường cong ROC, ma trận nhầm lẫn và các chỉ số hiệu suất mô hình.

23. Bước 21: Ma trận nhầm lẫn và Ma trận thu nhập

Chúng ta có thể nhấp vào nút cam + Thêm payoff trong tab Ma trận nhầm lẫn để thêm ma trận thu nhập vào ma trận nhầm lẫn và đặt tên cho nó. Sau khi thêm ma trận thu lợi, chúng ta có thể thấy thu lợi kế tiếp số lượng trong ma trận nhầm lẫn sau khi thêm ma trận thu nhập.

24. Bước 22: Các chỉ số hiệu suất của mô hình

DataRobot mặc định hiển thị F1 Score, tỷ lệ True Positive (Sensitivity) và Giá trị dự đoán Dương tích cực (Precision) cho mô hình, nhưng chúng ta có thể nhấp vào nút cam Chọn chỉ số để chọn các chỉ số hiệu suất để hiển thị. Trong ví dụ này, tôi đã xóa Giá trị Dự đoán Dương tích cực (Precision) và thêm Lợi nhuận Tổng cộng. Kết quả chỉ số hiển thị rằng lợi nhuận tổng cộng dựa trên ma trận thu nhập của tôi là 11 nghìn đô la.

25. Bước 23: Ngưỡng của mô hình

Ngưỡng của mô hình có thể điều chỉnh bằng cách nhấp vào số màu cam Ngưỡng hiển thị. Chúng ta có thể tối đa hóa F1 Score, tối đa hóa MCC hoặc tối đa hóa lợi nhuận. Ngoài ra, chúng ta cũng có thể chọn một ngưỡng tùy chỉnh và áp dụng nó bằng cách nhấp vào nút cam Sử dụng làm Ngưỡng Dự đoán.

26. Bước 24: Bảng điều tra huấn luyện

Tab Bảng điều tra huấn luyện theo dõi Mất mát, Độ chính xác, Tỷ lệ học và Động lượng qua các lần lặp.

27. Bước 25: Điều chỉnh mô hình

Để điều chỉnh siêu tham số của mô hình, hãy chuyển đến tab Đánh giá, sau đó chọn Điều chỉnh nâng cao. Phần này liệt kê tất cả các giá trị siêu tham số hiện tại và người dùng có thể thay đổi giá trị để điều chỉnh mô hình. Ví dụ: nếu chúng ta muốn điều chỉnh siêu tham số batch_size, chúng ta có thể nhấp vào hộp nhập với batch size và nhập một giá trị, nhiều giá trị hoặc một phạm vi giá trị.

28. Bước 26: Mở khóa dữ liệu kiểm tra

Sau khi tất cả các mô hình đã được hoàn thiện, hãy quay lại tab Bảng xếp hạng, nhấp vào nút cam Mở khóa dự án Holdout cho tất cả các mô hình trong thanh bên phải. Sau đó, nhấp vào nút cam Mở khóa dự án holdout trong cửa sổ xuất hiện. Chúng ta có thể thấy cột Holdout đã thay đổi từ khóa lock màu xám sang các giá trị chỉ số.

29. Bước 27: Đánh giá quan trọng của đặc trưng

DataRobot hiển thị sự quan trọng của đặc trưng trong tab Insights trong mục Models.

30. Bước 28: Tốc độ so với Độ chính xác

Dưới Models → Speed vs Accuracy, có một biểu đồ phân tán với trục x là thời gian để thực hiện 1000 dự đoán và trục y là điểm số xác thực cho chỉ số được chọn. Đối với hai mô hình trong ví dụ này, mô hình XGBoost nhanh hơn với điểm số AUC cao hơn cho tập dữ liệu xác thực.

31. Bước 29: So sánh mô hình

Chúng ta có thể xem tổng kết so sánh mô hình bằng cách nhấp vào So sánh mô hình trong danh mục con Models. DataRobot tóm tắt các chỉ số trong một bảng và đánh dấu các giá trị tốt nhất trên các mô hình. Đối với hai mô hình được chọn trong ví dụ này, chúng ta có thể thấy rằng mô hình XGBoost có hiệu suất tốt hơn đối với tập dữ liệu xác thực, nhưng mô hình neural network có hiệu suất tốt hơn đối với kiểm định chéo và tập dữ liệu kiểm tra. XGBooster cũng nhanh hơn mô hình neural network cho dự đoán.

32. Bước 30: Lựa chọn mô hình

Sau khi so sánh các mô hình, chúng ta quyết định tiếp tục với mô hình neural network vì nó có hiệu suất tốt hơn trong kiểm định chéo và tập dữ liệu kiểm tra. Tập dữ liệu thử nghiệm của chúng ta nhỏ, nên thời gian dự đoán lâu hơn không là vấn đề.

33. Bước 31: Tạo dự đoán

Nhấp vào Models → Bảng xếp hạng, sau đó nhấp vào tên mô hình mạng lưới neural, trong phần mở rộng, nhấp vào Dự đoán. Dưới Dự đoán thử nghiệm, chúng ta có thể tùy chỉnh Ngưỡng dự đoán. Nhấp vào cam Chọn tệp để tải lên tệp tin. Bạn có thể tải lên tệp từ máy tính cục bộ, từ URL, từ nguồn dữ liệu hoặc từ AI Catalog. Sau khi tải lên tệp test_data.csv từ ổ đĩa cục bộ, tệp xuất hiện trong mục Thiết lập Dự đoán.

34. Bước 32: Tải xuống dự đoán

Sau khi dự đoán hoàn tất, nhấp vào nút cam Tải xuống dự đoán để tải xuống kết quả dự đoán. Kết quả dự đoán bao gồm ID hàng, xác suất dự đoán và nhãn dự đoán.

35. Kết luận

Trên đây là hướng dẫn sử dụng DataRobot để xây dựng danh sách các đặc trưng, huấn luyện các mô hình học máy, đánh giá hiệu suất mô hình và thực hiện dự đoán. DataRobot cung cấp một giao diện mạnh mẽ và rất linh hoạt cho việc tiếp cận học máy tự động và mô hình hóa. Tiếp tục khám phá các tính năng của DataRobot để tận dụng toàn diện quy trình học máy.

Nghệ thuật AI: Cuộc cách mạng sáng tạo cho các nghệ sĩ con người!

Những tương lai của nghệ thuật: Trí tuệ nhân tạo sáng tạo hỗ trợ con người hay con người hỗ trợ trí tuệ nhân tạo?