2022年初學者必看!DataRobot自動機器學習教學

Find AI Tools
No difficulty
No complicated process
Find ai tools

2022年初學者必看!DataRobot自動機器學習教學

目錄

📚 引言

在本教程中,我們將介紹如何使用 DataRobot 構建特徵列表、訓練機器學習模型、評估模型性能和進行預測。DataRobot 是一個自動機器學習平台,它能夠大幅縮短開發和部署機器學習模型的時間。無需太多的編程知識,使用 DataRobot 可以方便地進行機器學習項目。現在,讓我們開始吧!

步驟 0:準備建模數據(可選)

在開始之前,我們需要準備用於建模的數據集。在本教程中,我們將使用 scikit-learn 中的乳腺癌數據集。您可以通過使用示例代碼導出訓練和測試數據集,將其保存為 CSV 文件。當然,您也可以使用您自己的數據集按照本教程進行操作。建議使用具有二元標籤的數據集,以便按照本教程逐步操作。

步驟 1:登入 DataRobot

在進入 DataRobot 應用程序之前,我們需要登錄。登錄完成後,我們將看到首頁界面。值得注意的是,DataRobot 的用戶界面會經常更新,所以您可能會看到稍有不同的界面,這取決於版本更新。但是,操作流程大致相同,我們將在下面的步驟中進行介紹。

步驟 2:導入數據至 DataRobot

在本例中,我們將從不同的數據源導入數據。在這個例子中,我們將從電腦中導入乳腺癌訓練數據集,這個數據集是在第 0 步下載的。只需點擊橘色的“本地文件”按鈕即可導入數據集。數據集導入完成後,我們需要為項目輸入目標變量。

步驟 3:輸入目標變量

乳腺癌預測數據集具有一個名為“target”的二元目標變量。它是一個指示變量,取值為 0 或 1。0 表示病人沒有乳腺癌,1 表示病人患有乳腺癌。在輸入目標變量後,DataRobot 會自動為該變量創建一個柱狀圖。

步驟 4:選擇建模模式

DataRobot 提供了四種不同的建模模式:

  • 自動駕駛:自動選擇最佳的預測模型。
  • 快速:選擇最大樣本大小運行所選模型。
  • 手動:只運行用戶選擇的模型。
  • 全面:運行所有庫中的模型,所以運行時間可能很長。

默認模式是“快速”,我們將選擇“手動”模式,手動選擇模型。

步驟 5:進入數據頁面

在點選“開始”後,DataRobot 會自動評估數據集的質量。評估的進度將顯示在螢幕的右側。評估完成後,將彈出一個視窗,要求我們選擇“進入存儲庫”或“忽略”。在選擇之前,我們想先查看特徵,然後再從儲存庫選擇模型。要獲取本教程的文字版本,請查看我在 Medium 上的博客文章。我將在視頻描述中提供鏈接。Medium.com 是我在數據科學和機器學習方面最常參考的網站,每個月收費 5 美元,能夠完整訪問文章。多年來,我一直都是 Medium.com 的會員,每個月花這 5 美元是最值得的。如果您想支持我作為內容創作者,並購買我一杯咖啡,請使用視頻描述中的鏈接免費加入 Medium 會員。如果您不想加入,仍然可以閱讀這篇文章,因為每個月都有幾篇免費的文章供所有人閱讀。好的,讓我們繼續!

步驟 6:進行數據質量評估

點擊“忽略”後,我們將看到包含數據集名稱、特徵數量、記錄數量以及每個特徵缺失值數量的數據摘要頁面。第一列是“特徵名稱”,默認按特徵重要性遞減排序。但是我們可以通過點擊列頭來更改排序依據,排序結果可以在升序和降序之間切換。第二列是“數據質量”,顯示可能存在的數據質量問題,如目標泄漏和離群值。數據質量警告並不會阻止用戶進行下一步操作,只是幫助我們快速檢查潛在問題。第三列是“索引”,表示輸入數據集的順序。例如,“target”變量的索引是 31,這意味著它是輸入數據集中的第 31 個變量。第四列是“重要性”,以綠色條表示與目標的相關性強度。第五列是“變量類型”,我們可以看到該數據集中的所有變量都是數值型的。第六列到第十二列是每個變量的摘要統計數字,包括唯一值的數量、缺失值的數量、平均值、標準差、中位數、最小值和最大值。

步驟 7:選擇特徵

要為模型選擇特徵,只需點擊特徵名稱旁邊的勾選框,然後取消選擇不想包含在模型中的特徵。本例中,我取消選擇了最后三個重要性最低的特徵。

步驟 8:創建特徵列表

點擊橘色的“+ 創建特徵列表”按鈕,給特徵列表命名,然後點擊“創建特徵列表”按鈕。

步驟 9:檢查創建的特徵列表

在第 8 步創建特徵列表後,默認的特徵列表從“所有特徵”變為我們剛剛創建的特徵列表名稱。確保列表反映在第 8 步所做的更改上。在本例中,我預設的特徵列表更改為“my_feature_list_1”,最后三個特徵從列表中被刪除。

步驟 10:特徵工程(可選)

這一步是可選的。可以通過點擊橘色的“菜單”按鈕,然后選擇“操作”→“創建 f(x) 轉換”來進行特徵工程。讓我們創建一個名為“log_mean_area”的轉換特徵,並在“表達”框中輸入公式。點擊橘色的“創建”按鈕後,我們可以看到新的特徵“log_mean_area”位於原始特徵“mean_area”的下方,該變量的對數版本沒有任何質量警告。

步驟 11:選擇模型

點擊頂部菜單的“模型”,然後點擊“+ 添加新模型”。在“選擇模型”下,點擊默認模型名稱,然後搜索模型名稱。我們想選擇一個 XGBoost 模型,所以搜索關鍵字“XGBoost”會給我們返回不同版本的 XGBoost 模型。這里我選擇了正則化參數為 40 的版本。

步驟 12:選擇特徵列表

在“運行特徵列表”下,讓我們選擇剛創建的特徵列表“my_feature_list_1”。這是我們將用於模型的預測變量列表。

步驟 13:更改樣本大小(可選)

默認情況下,DataRobot 將 20% 的數據集作為 holdout 數據,並將其餘 80% 的數據分為 5 個 fold 進行 k-fold 交叉驗證。我們可以通過點擊橘色的“+”符號在樣本大小下更改樣本大小。

步驟 14:選擇交叉驗證次數(可選)

在“CV runs”下,我們可以選擇運行單個 fold 的交叉驗證,還是運行所有五個 fold 的交叉驗證。默認是運行 1 個 fold。

步驟 15:添加模型

在選擇完所有模型選項後,點擊橘色的“添加模型”按鈕,模型將出現在排行榜上。模型訓練過程顯示在右側窗格。點擊橘色箭頭下方的“選擇模型”可以按需要添加新模型。我添加了一個 Keras 的神經網絡模型,並在單個 fold 的交叉驗證旁點擊“運行”按鈕以運行其餘四個 fold。

步驟 16:更改模型性能指標(可選)

要更改模型性能指標,點擊橘色的“添加模型”按鈕旁邊的關閉按鈕,將指標更改為其他指標,例如 AUC。模型的驗證和交叉驗證結果將根據所選的指標進行更新。

步驟 17:模型描述

在模型訓練完成後,點擊模型名稱,該模型的面板將展開,顯示更多信息。藍色的“描述”部分包含有關模型訓練過程的所有信息。

步驟 17.1:藍圖

藍圖顯示了模型訓練和預測的工作流程。

步驟 17.2:模型信息

模型信息中包含模型的概述,包括文件大小、預測時間和樣本大小等信息。

步驟 17.3:模型係數

係數部分顯示模型的特徵效果。我們可以按係數或按名稱對特徵進行排序。可以通過點擊橘色的“導出”按鈕下載係數結果,選擇格式後點擊橘色的“下載”按鈕。

步驟 17.4:神經網絡可視化器

神經網絡可視化器專門用於神經網絡模型,它顯示了神經網絡模型的架構。

步驟 17.5:模型日誌

“日誌”選項卡包含模型的日誌信息。

步驟 18:模型評估

模型評估信息位於“評估”選項卡下。

步驟 18.1:提升圖

提升圖顯示了預測值和實際值的提升圖。提升圖下方是“數據選擇”、“柱狀圖數量”、“排序柱狀圖”和“啟用分層”等選項。我們可以將鼠標懸停在標記上以查看柱狀圖信息。在啟用數據分層後,我們可以點擊標記上的加號符號以查看記錄級別的信息。

步驟 18.2:ROC 曲線

ROC 曲線選項卡顯示了預測分佈、ROC 曲線、混淆矩陣和模型性能指標。

步驟 18.3:混淆矩陣和收益矩陣

在混淆矩陣面板上點擊橘色的“+ 添加收益”按鈕可以為混淆矩陣添加收益並給其命名。點擊橘色的“保存”按鈕可以保存收益矩陣。在添加收益矩陣後,我們可以在混淆矩陣中的計數旁邊看到收益。

步驟 18.4:模型性能指標

DataRobot 默認顯示 F1 分數、真陽性率(敏感度)和正確的預測值(精確度)。我們可以點擊橘色的“選擇指標”按鈕來選擇要顯示的指標。要了解有關模型性能指標的更多信息,請參閱我之前的教程《如何評估二元分類模型的性能》。在這個例子中,我刪除了正確的預測值(精確度)並添加了總收益。指標顯示基於我的收益矩陣,總收益為 11,000 美元。

步驟 18.5:模型閾值

點擊數字旁邊的橘色數字,可以調整模型閾值。我們可以將 F1 分數最大化、 MCC 最大化或利潤最大化。或者,我們可以選擇自定義閾值,並點擊橘色的“使用作為預測閾值”按鈕應用它。

步驟 18.6:訓練儀表板

“訓練儀表板”選項卡跟踪損失、準確率、學習速率和動量等數據隨迭代次數的變化。

步驟 19:模型調參

要調參,請轉到“評估”,然後選擇“高級調參”。在這一部分列出了所有當前的超參值,用戶可以更改這些值來調整模型。例如,如果我們想調參批量大小,可以點擊批量大小輸入框,輸入一個值、多個值或一個值的範圍。

步驟 20:解鎖 Holdout 數據

在所有模型完成後,返回到“模型”→“排行榜”,然後在右側窗格中點擊“解鎖項目的 Holdout”。然後在彈出窗口中點擊“解鎖項目 Holdout”按鈕。我們可以看到 Holdout 的列從灰色的鎖變成了指標值。

步驟 21:特徵重要性

DataRobot 在“模型” → “洞見”中繪製了特徵重要性。

步驟 22:速度 vs. 準確性

在“模型” → “速度 vs. 準確性”下,有一個散點圖,x 軸是進行 1000 次預測的時間,y 軸是所選指標的驗證分數。在本教程中選擇的兩個模型中,XGBoost 模型更快,並且在驗證數據集上具有更高的 AUC 分數。

步驟 23:模型比較

我們可以通過點擊“模型比較”在“模型”子菜單中查看模型比較摘要。DataRobot 會在表格中概述指標,並突出顯示最佳值。對於本教程中選擇的兩個模型,我們可以看到 XGBoost 模型在驗證數據集上具有更好的性能,但在交叉驗證和 Holdout 數據集上,神經網絡模型的性能更好。相對於神經網絡模型,XGBoost 模型的預測速度更快。我們還可以在 Dual Lift、提升圖、ROC 曲線和利潤曲線上對比模型的性能。

步驟 24:模型選擇

通過進行模型比較,我們決定使用神經網絡模型作為我們的最終模型,因為它在交叉驗證和 Holdout 數據集上的性能更好。由於我們的測試數據集較小,所以預測時間較長並不是問題。

步驟 25:進行預測

點擊“模型”→“排行榜”,然後點擊神經網絡模型的名字。在展開的部分中,點擊“預測”。在“測試預測”下,我們可以自定義預測閾值。點擊橘色的“選擇文件”按鈕,可以從本地計算機、URL、數據源或 AI 目錄中上傳文件。在從本地驅動器上傳了名為“test_data.csv”的文件後,該文件將顯示在“預測數據集”中。點擊橘色的“計算預測”按鈕進行預測。

步驟 26:下載預測結果

預測完成後,點擊橘色的“下載預測”將預測結果下載到本地計算機。預測結果包含行 ID、預測概率和預測標籤。

至此,我們已經完成了 DataRobot 的使用教程。希望本教程對您有所幫助!如果您有任何問題,可以在下面的常見問題解答部分尋找答案。感謝觀看本視頻,敬請期待我們的下一個相關視頻!

常見問題解答

Q1:如何導出 DataRobot 中使用的特徵列表?

A:要導出特徵列表,在 DataRobot 的首頁中,點擊“項目”→“特徵列表”。找到要導出的特徵列表,然後點擊橘色的“更多”按鈕。在下拉菜單中,選擇“導出特徵列表”。特徵列表將以 CSV 格式下載到您的計算機上。

Q2:如何在 DataRobot 中添加更多的模型?

A:要添加更多的模型,可以在“模型”→“排行榜”下點擊橘色的下箭頭按鈕。在彈出菜單中,選擇要添加的模型。您也可以在“模型比較”下添加新的模型。

Q3:如何在 DataRobot 中更改模型的超參?

A:要更改模型的超參,可以進入該模型的詳細信息頁面。在模型信息頁面的“模型曝光”區域,點擊“更多操作”下的“更改超參”按鈕。在“更改超參”頁面,您可以更改現有參數的值,或者添加新的參數並調整它們的值。

Q4:如何導出 DataRobot 模型的預測?

A:要導出 DataRobot 模型的預測結果,可以在模型的詳細信息頁面中點擊“預測”。在“測試預測”下,上傳測試數據集並計算預測。完成預測後,點擊“下載預測”按鈕下載預測結果。

Q5:如何在 DataRobot 中比較模型的性能?

A:要比較模型的性能,可以在“模型”子菜單中點擊“模型比較”。在模型比較摘要中,可以看到多個模型在不同指標下的性能摘要。您還可以在 Dual Lift、提升圖、ROC 曲線和利潤曲線上比較模型的性能。

Q6:如何解鎖 DataRobot 中的 Holdout 數據?

A:要解鎖 DataRobot 中的 Holdout 數據,可以在“模型”→“排行榜”下,點擊右側窗格中的“解鎖項目 Holdout”。然後,在彈出窗口中點擊“解鎖項目 Holdout”按鈕。

Q7:如何在 DataRobot 中觀察模型的特徵重要性?

A:要觀察模型的特徵重要性,可以在“模型”→“洞見”中查看特徵重要性。DataRobot 會繪製特徵重要性的圖表,以幫助您了解模型中特徵的相對重要性。

Q8:如何在 DataRobot 中存儲最終模型?

A:要存儲最終的 DataRobot 模型,可以在模型的詳細信息頁面中點擊“保存模型”。該模型將被保存並出現在所選專案的模型部分。

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.