【CloudWorld 2022】自動化機器學習與可解釋性
目錄
- 什麼是自動機器學習和可解釋性
- 傳統的數據科學管道
- 自動機器學習的工作流程
- 自動機器學習的算法選擇
- 自動機器學習的超參數調整
- 自動機器學習的自適應數據減少
- 自動機器學習的特徵選擇
- 自動機器學習的結果和比較
- 自動機器學習的可解釋性
- 自動機器學習在Oracle平台的應用
自動機器學習和解釋性
在這篇文章中,我們將介紹自動機器學習和可解釋性。自動機器學習是一種讓機器能夠自動學習和改進的技術,它可以幫助我們解決許多機器學習問題。然而,傳統的數據科學管道存在一些問題,如模型的選擇和參數設置等。自動機器學習的出現解決了這些問題,使得模型的選擇和訓練變得更加容易和自動化。
傳統的數據科學管道
在傳統的數據科學管道中,我們需要將數據交給數據科學家來解決機器學習問題。在解決這個問題的過程中,數據科學家可能會遇到一系列的問題,例如使用哪種模型,數據集的特徵是否有效,以及使用哪種參數設置等。此外,當使用模型進行預測時,我們還需要回答一系列額外的問題,例如我們是否應該信任該模型,它是否學到了正確的東西,是否公平,以及是否符合監管要求等。
自動機器學習的工作流程
自動機器學習旨在讓這一切對用戶來說變得更加容易使用。您只需要提供一組數據,我們將自動選擇最佳模型為您進行訓練,優化其超參數,然後返回一個完全訓練的模型。此外,我們還提供解釋來幫助您了解模型學到了什麼。使用自動機器學習非常簡單,只需要導入流程,初始化它,並傳遞數據集即可。
自動機器學習的算法選擇
在自動機器學習中,我們專注於提供易於使用的界面。我們將問題分解為一系列步驟,並根據每個步驟的解決情況來進行建模。傳統的自動機器學習方法會嘗試一次性解決整個問題,而我們則將其分為獨立且易於解決的步驟,並在解決一個步驟後不再返回它。
自動機器學習的超參數調整
在自動機器學習中,模型的選擇和訓練是一個很大的問題。傳統的方法會嘗試各種不同的模型和超參數設置,這需要很長的時間才能找到正確的答案。我們將超參數調整分為兩個步驟:第一步是使用預設超參數進行輕量級元學習,找到一組較好的默認參數;第二步是針對這一組參數進行微調,以獲得最佳性能。此外,我們還做了一些工作來改善運行時間,例如自適應數據減少等。
自動機器學習的自適應數據減少
在自動機器學習中,我們通過自適應抽樣和特徵選擇來改善運行時間。自適應抽樣用於確定在訓練模型時應使用的最佳數據集大小。我們可以從一個小數據集開始,然後使用越來越多的數據集來訓練模型,直到觀察到模型性能不再提高為止。特徵選擇的目的是降低數據集的特徵數量,這不僅可以改善運行時間,還可以通過減少過擬合來提高模型的準確性。
自動機器學習的結果和比較
我們將自動機器學習的結果與其他AutoML解決方案進行了比較,如H2O和Auto-sklearn。比較結果顯示,我們的方法在不同的時間預算下找到了更好的解決方案。此外,我們還發現我們的方法運行速度約為其他方法的三倍,並且得到了更好的分數。
自動機器學習的可解釋性
我們提供了多種不同的解釋選項,以幫助您了解模型學到了什麼。我們可以顯示全局特徵重要性,局部預測級別的特徵重要性,以及特徵對模型預測的平均影響等。這些解釋都可以自動生成,您只需要告訴我們你想解釋哪些特徵。
自動機器學習在Oracle平台的應用
自動機器學習和可解釋性在Oracle平台上得到了廣泛的應用。例如,在Oracle Autonomous Database中,我們可以利用自動機器學習來改進數據庫中的性能和分析功能。此外,自動機器學習還可以應用於Oracle Transportation Management等各種應用領域。
這就是關於自動機器學習和可解釋性的介紹。如果您想了解更多有關自動機器學習和解釋性的信息,請查看我們的其他會議和課程。
資源: