2022年初學者必看！DataRobot自動機器學習教學

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News TW 2022年初學者必看！DataRobot自動機器學習教學

2022年初學者必看！DataRobot自動機器學習教學

引言
步驟 0：準備建模數據（可選）
步驟 1：登入 DataRobot
步驟 2：導入數據至 DataRobot
步驟 3：輸入目標變量
步驟 4：選擇建模模式
步驟 5：進入數據頁面
步驟 6：進行數據質量評估
步驟 7：選擇特徵
步驟 8：創建特徵列表
步驟 9：檢查創建的特徵列表
步驟 10：特徵工程
步驟 11：選擇模型
步驟 12：選擇特徵列表
步驟 13：更改樣本大小（可選）
步驟 14：選擇交叉驗證次數（可選）
步驟 15：添加模型
步驟 16：更改模型性能指標（可選）
步驟 17：模型描述
步驟 18：模型評估
步驟 19：模型調參
步驟 20：解鎖 Holdout 數據
步驟 21：特徵重要性
步驟 22：速度 vs. 準確性
步驟 23：模型比較
步驟 24：模型選擇
步驟 25：進行預測
步驟 26：下載預測結果
結論
常見問題解答

📚 引言

在本教程中，我們將介紹如何使用 DataRobot 構建特徵列表、訓練機器學習模型、評估模型性能和進行預測。DataRobot 是一個自動機器學習平台，它能夠大幅縮短開發和部署機器學習模型的時間。無需太多的編程知識，使用 DataRobot 可以方便地進行機器學習項目。現在，讓我們開始吧！

步驟 0：準備建模數據（可選）

在開始之前，我們需要準備用於建模的數據集。在本教程中，我們將使用 scikit-learn 中的乳腺癌數據集。您可以通過使用示例代碼導出訓練和測試數據集，將其保存為 CSV 文件。當然，您也可以使用您自己的數據集按照本教程進行操作。建議使用具有二元標籤的數據集，以便按照本教程逐步操作。

步驟 1：登入 DataRobot

在進入 DataRobot 應用程序之前，我們需要登錄。登錄完成後，我們將看到首頁界面。值得注意的是，DataRobot 的用戶界面會經常更新，所以您可能會看到稍有不同的界面，這取決於版本更新。但是，操作流程大致相同，我們將在下面的步驟中進行介紹。

步驟 2：導入數據至 DataRobot

在本例中，我們將從不同的數據源導入數據。在這個例子中，我們將從電腦中導入乳腺癌訓練數據集，這個數據集是在第 0 步下載的。只需點擊橘色的“本地文件”按鈕即可導入數據集。數據集導入完成後，我們需要為項目輸入目標變量。

步驟 3：輸入目標變量

乳腺癌預測數據集具有一個名為“target”的二元目標變量。它是一個指示變量，取值為 0 或 1。0 表示病人沒有乳腺癌，1 表示病人患有乳腺癌。在輸入目標變量後，DataRobot 會自動為該變量創建一個柱狀圖。

步驟 4：選擇建模模式

DataRobot 提供了四種不同的建模模式：

自動駕駛：自動選擇最佳的預測模型。
快速：選擇最大樣本大小運行所選模型。
手動：只運行用戶選擇的模型。
全面：運行所有庫中的模型，所以運行時間可能很長。

默認模式是“快速”，我們將選擇“手動”模式，手動選擇模型。

步驟 5：進入數據頁面

在點選“開始”後，DataRobot 會自動評估數據集的質量。評估的進度將顯示在螢幕的右側。評估完成後，將彈出一個視窗，要求我們選擇“進入存儲庫”或“忽略”。在選擇之前，我們想先查看特徵，然後再從儲存庫選擇模型。要獲取本教程的文字版本，請查看我在 Medium 上的博客文章。我將在視頻描述中提供鏈接。Medium.com 是我在數據科學和機器學習方面最常參考的網站，每個月收費 5 美元，能夠完整訪問文章。多年來，我一直都是 Medium.com 的會員，每個月花這 5 美元是最值得的。如果您想支持我作為內容創作者，並購買我一杯咖啡，請使用視頻描述中的鏈接免費加入 Medium 會員。如果您不想加入，仍然可以閱讀這篇文章，因為每個月都有幾篇免費的文章供所有人閱讀。好的，讓我們繼續！

步驟 6：進行數據質量評估

點擊“忽略”後，我們將看到包含數據集名稱、特徵數量、記錄數量以及每個特徵缺失值數量的數據摘要頁面。第一列是“特徵名稱”，默認按特徵重要性遞減排序。但是我們可以通過點擊列頭來更改排序依據，排序結果可以在升序和降序之間切換。第二列是“數據質量”，顯示可能存在的數據質量問題，如目標泄漏和離群值。數據質量警告並不會阻止用戶進行下一步操作，只是幫助我們快速檢查潛在問題。第三列是“索引”，表示輸入數據集的順序。例如，“target”變量的索引是 31，這意味著它是輸入數據集中的第 31 個變量。第四列是“重要性”，以綠色條表示與目標的相關性強度。第五列是“變量類型”，我們可以看到該數據集中的所有變量都是數值型的。第六列到第十二列是每個變量的摘要統計數字，包括唯一值的數量、缺失值的數量、平均值、標準差、中位數、最小值和最大值。

步驟 7：選擇特徵

要為模型選擇特徵，只需點擊特徵名稱旁邊的勾選框，然後取消選擇不想包含在模型中的特徵。本例中，我取消選擇了最后三個重要性最低的特徵。

步驟 8：創建特徵列表

點擊橘色的“+ 創建特徵列表”按鈕，給特徵列表命名，然後點擊“創建特徵列表”按鈕。

步驟 9：檢查創建的特徵列表

在第 8 步創建特徵列表後，默認的特徵列表從“所有特徵”變為我們剛剛創建的特徵列表名稱。確保列表反映在第 8 步所做的更改上。在本例中，我預設的特徵列表更改為“my_feature_list_1”，最后三個特徵從列表中被刪除。

步驟 10：特徵工程（可選）

這一步是可選的。可以通過點擊橘色的“菜單”按鈕，然后選擇“操作”→“創建 f(x) 轉換”來進行特徵工程。讓我們創建一個名為“log_mean_area”的轉換特徵，並在“表達”框中輸入公式。點擊橘色的“創建”按鈕後，我們可以看到新的特徵“log_mean_area”位於原始特徵“mean_area”的下方，該變量的對數版本沒有任何質量警告。

步驟 11：選擇模型

點擊頂部菜單的“模型”，然後點擊“+ 添加新模型”。在“選擇模型”下，點擊默認模型名稱，然後搜索模型名稱。我們想選擇一個 XGBoost 模型，所以搜索關鍵字“XGBoost”會給我們返回不同版本的 XGBoost 模型。這里我選擇了正則化參數為 40 的版本。

步驟 12：選擇特徵列表

在“運行特徵列表”下，讓我們選擇剛創建的特徵列表“my_feature_list_1”。這是我們將用於模型的預測變量列表。

步驟 13：更改樣本大小（可選）

默認情況下，DataRobot 將 20% 的數據集作為 holdout 數據，並將其餘 80% 的數據分為 5 個 fold 進行 k-fold 交叉驗證。我們可以通過點擊橘色的“+”符號在樣本大小下更改樣本大小。

步驟 14：選擇交叉驗證次數（可選）

在“CV runs”下，我們可以選擇運行單個 fold 的交叉驗證，還是運行所有五個 fold 的交叉驗證。默認是運行 1 個 fold。

步驟 15：添加模型

在選擇完所有模型選項後，點擊橘色的“添加模型”按鈕，模型將出現在排行榜上。模型訓練過程顯示在右側窗格。點擊橘色箭頭下方的“選擇模型”可以按需要添加新模型。我添加了一個 Keras 的神經網絡模型，並在單個 fold 的交叉驗證旁點擊“運行”按鈕以運行其餘四個 fold。

步驟 16：更改模型性能指標（可選）

要更改模型性能指標，點擊橘色的“添加模型”按鈕旁邊的關閉按鈕，將指標更改為其他指標，例如 AUC。模型的驗證和交叉驗證結果將根據所選的指標進行更新。

步驟 17：模型描述

在模型訓練完成後，點擊模型名稱，該模型的面板將展開，顯示更多信息。藍色的“描述”部分包含有關模型訓練過程的所有信息。

步驟 17.1：藍圖

藍圖顯示了模型訓練和預測的工作流程。

步驟 17.2：模型信息

模型信息中包含模型的概述，包括文件大小、預測時間和樣本大小等信息。

步驟 17.3：模型係數

係數部分顯示模型的特徵效果。我們可以按係數或按名稱對特徵進行排序。可以通過點擊橘色的“導出”按鈕下載係數結果，選擇格式後點擊橘色的“下載”按鈕。

步驟 17.4：神經網絡可視化器

神經網絡可視化器專門用於神經網絡模型，它顯示了神經網絡模型的架構。

步驟 17.5：模型日誌

“日誌”選項卡包含模型的日誌信息。

步驟 18：模型評估

模型評估信息位於“評估”選項卡下。

步驟 18.1：提升圖

提升圖顯示了預測值和實際值的提升圖。提升圖下方是“數據選擇”、“柱狀圖數量”、“排序柱狀圖”和“啟用分層”等選項。我們可以將鼠標懸停在標記上以查看柱狀圖信息。在啟用數據分層後，我們可以點擊標記上的加號符號以查看記錄級別的信息。

步驟 18.2：ROC 曲線

ROC 曲線選項卡顯示了預測分佈、ROC 曲線、混淆矩陣和模型性能指標。

步驟 18.3：混淆矩陣和收益矩陣

在混淆矩陣面板上點擊橘色的“+ 添加收益”按鈕可以為混淆矩陣添加收益並給其命名。點擊橘色的“保存”按鈕可以保存收益矩陣。在添加收益矩陣後，我們可以在混淆矩陣中的計數旁邊看到收益。

步驟 18.4：模型性能指標

DataRobot 默認顯示 F1 分數、真陽性率（敏感度）和正確的預測值（精確度）。我們可以點擊橘色的“選擇指標”按鈕來選擇要顯示的指標。要了解有關模型性能指標的更多信息，請參閱我之前的教程《如何評估二元分類模型的性能》。在這個例子中，我刪除了正確的預測值（精確度）並添加了總收益。指標顯示基於我的收益矩陣，總收益為 11,000 美元。

步驟 18.5：模型閾值

點擊數字旁邊的橘色數字，可以調整模型閾值。我們可以將 F1 分數最大化、 MCC 最大化或利潤最大化。或者，我們可以選擇自定義閾值，並點擊橘色的“使用作為預測閾值”按鈕應用它。

步驟 18.6：訓練儀表板

“訓練儀表板”選項卡跟踪損失、準確率、學習速率和動量等數據隨迭代次數的變化。

步驟 19：模型調參

要調參，請轉到“評估”，然後選擇“高級調參”。在這一部分列出了所有當前的超參值，用戶可以更改這些值來調整模型。例如，如果我們想調參批量大小，可以點擊批量大小輸入框，輸入一個值、多個值或一個值的範圍。

步驟 20：解鎖 Holdout 數據

在所有模型完成後，返回到“模型”→“排行榜”，然後在右側窗格中點擊“解鎖項目的 Holdout”。然後在彈出窗口中點擊“解鎖項目 Holdout”按鈕。我們可以看到 Holdout 的列從灰色的鎖變成了指標值。

步驟 21：特徵重要性

DataRobot 在“模型” → “洞見”中繪製了特徵重要性。

步驟 22：速度 vs. 準確性

在“模型” → “速度 vs. 準確性”下，有一個散點圖，x 軸是進行 1000 次預測的時間，y 軸是所選指標的驗證分數。在本教程中選擇的兩個模型中，XGBoost 模型更快，並且在驗證數據集上具有更高的 AUC 分數。

步驟 23：模型比較

我們可以通過點擊“模型比較”在“模型”子菜單中查看模型比較摘要。DataRobot 會在表格中概述指標，並突出顯示最佳值。對於本教程中選擇的兩個模型，我們可以看到 XGBoost 模型在驗證數據集上具有更好的性能，但在交叉驗證和 Holdout 數據集上，神經網絡模型的性能更好。相對於神經網絡模型，XGBoost 模型的預測速度更快。我們還可以在 Dual Lift、提升圖、ROC 曲線和利潤曲線上對比模型的性能。

步驟 24：模型選擇

通過進行模型比較，我們決定使用神經網絡模型作為我們的最終模型，因為它在交叉驗證和 Holdout 數據集上的性能更好。由於我們的測試數據集較小，所以預測時間較長並不是問題。

步驟 25：進行預測

點擊“模型”→“排行榜”，然後點擊神經網絡模型的名字。在展開的部分中，點擊“預測”。在“測試預測”下，我們可以自定義預測閾值。點擊橘色的“選擇文件”按鈕，可以從本地計算機、URL、數據源或 AI 目錄中上傳文件。在從本地驅動器上傳了名為“test_data.csv”的文件後，該文件將顯示在“預測數據集”中。點擊橘色的“計算預測”按鈕進行預測。