Hướng dẫn giải thích mô hình học máy với explainX.ai: Bộ phân loại CatBoost
Mục lục
- Giới thiệu
- Cài đặt gói explainer
- Phát triển mô hình
- Giải thích toàn cục
- Mức độ quan trọng toàn cục
- Tiếp cận quan trọng đặc trưng
- Phân tích phụ thuộc một phần
- Giải thích cá nhân
- Phân tích nhóm
- Hỗ trợ mô hình hộp đen
- Kết luận
Giới thiệu
Trong bài viết này, chúng ta sẽ tìm hiểu về cách sử dụng gói Explainer để giải thích mô hình phân loại nhị phân dự đoán cho việc gia hạn tín dụng. Mô hình này đã được huấn luyện trên tập dữ liệu FICO về cho vay tín dụng. Chúng ta sẽ đi qua các mức độ giải thích khác nhau, từ giải thích toàn cục cho đến giải thích cá nhân và phân tích nhóm. Bạn sẽ tìm hiểu cách sử dụng các kỹ thuật giải thích này để đào sâu vào ý nghĩa của mô hình và hiểu cách các đặc trưng ảnh hưởng đến dự đoán.
Cài đặt gói explainer
Đầu tiên, chúng ta cần cài đặt gói Explainer để truy cập các técnicas giải thích. Bạn có thể cài đặt gói này trên máy tính cục bộ của mình bằng cách chạy dòng code sau:
pip install explainer
Sau khi cài đặt thành công, chúng ta sẽ tiếp tục xây dựng mô hình.
Phát triển mô hình
Trước tiên, chúng ta cần nhập các gói liên quan và tải tập dữ liệu từ gói Explainer. Tập dữ liệu này chứa thông tin về các khoản vay tín dụng và được phân loại thành Hai nhãn: 0 - tín dụng không được gia hạn và 1 - tín dụng được gia hạn. Chúng ta sẽ chia tập dữ liệu thành bộ train và bộ test và sau đó huấn luyện mô hình phân loại. Sau khi mô hình được huấn luyện, chúng ta sẽ tiếp tục với phần giải thích.
Giải thích toàn cục
Đầu tiên, chúng ta sẽ tìm hiểu về mức độ giải thích toàn cục. Mức độ quan trọng toàn cục của các đặc trưng được tính bằng cách sử dụng giải thích SHAP. Bằng cách đọc biểu đồ, chúng ta có thể hiểu rằng các biến "external risk estimate", "months since most recent inquiry" và "net fraction revolving burden" là những đặc trưng quan trọng nhất đối với mô hình.
Tiếp theo, chúng ta sẽ xem liệu mức độ quan trọng toàn cục có thể giải thích được toàn bộ câu chuyện hay không. Chúng ta sẽ xem bảng quan trọng của các đặc trưng cho cả hai nhãn: 0 và 1. Chúng ta sẽ thấy rằng đặc trưng "external risk estimate" có ảnh hưởng tiêu cực đối với nhãn 0 và ảnh hưởng tích cực đối với nhãn 1. Đặc trưng "net fraction revolving burden" là đặc trưng quan trọng thứ hai cho cả hai nhãn, trong khi "percent trade never delinquency" là đặc trưng quan trọng thứ ba cho nhãn 1.
Bây giờ chúng ta đã hiểu cách mô hình suy nghĩ về mức độ quan trọng trong các nhãn khác nhau, chúng ta sẽ chuyển sang phần giải thích cục bộ.
Giải thích cá nhân
Ở mức độ giải thích cá nhân, chúng ta có thể xem xét từng trường hợp cụ thể và xem các đặc trưng và cách mỗi đặc trưng đóng góp vào dự đoán của mô hình. Chúng ta cũng có thể thay đổi giá trị của các đặc trưng và xem thay đổi tác động dự đoán của mô hình. Bằng cách làm như vậy, chúng ta có thể hiểu rõ hơn về cách mô hình đưa ra quyết định của mình.
Phân tích nhóm
Cuối cùng, chúng ta sẽ xem xét phân tích nhóm để hiểu cách mô hình hoạt động với từng nhóm dữ liệu khác nhau. Trong ví dụ này, chúng ta đã chia tập dữ liệu thành hai nhóm dựa trên giá trị "external risk estimate" lớn hơn hoặc nhỏ hơn 50. Chúng ta thấy rằng mô hình có độ chính xác cao hơn khi "external risk estimate" lớn hơn 50, trong khi có độ chính xác thấp hơn khi "external risk estimate" nhỏ hơn 50. Điều này cho chúng ta nhận thấy rằng mô hình có thể không hoạt động tốt với các nhóm có "external risk estimate" nhỏ hơn 50 và chúng ta cần kiểm tra lại để khắc phục sự không chính xác này.
Hỗ trợ mô hình hộp đen
Cuối cùng, chúng ta đã cung cấp hỗ trợ cho các mô hình hộp đen. Các bước trước đây đều áp dụng cho các mô hình có thể giải thích, nhưng với các mô hình hộp đen, chúng ta không thể trực tiếp biết được cách mô hình đưa ra dự đoán. Đối với các mô hình hộp đen, chúng ta có thể tìm hiểu thêm về phân phối dữ liệu và ảnh hưởng của đặc trưng lên dự đoán chung của mô hình.
Kết luận
Trong bài viết này, chúng ta đã tìm hiểu cách sử dụng gói Explainer để giải thích mô hình phân loại nhị phân dự đoán cho việc gia hạn tín dụng. Chúng ta đã xem xét các mức độ giải thích khác nhau, từ giải thích toàn cục cho đến giải thích cá nhân và phân tích nhóm. Chúng ta đã khám phá cách các đặc trưng ảnh hưởng đến dự đoán của mô hình và hiểu rõ hơn về quyết định của mô hình trong các trường hợp cụ thể và nhóm dữ liệu khác nhau.