Uber極限規模Ray深度學習訓練與調整

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News TW Uber極限規模Ray深度學習訓練與調整

Uber極限規模Ray深度學習訓練與調整

Uber's Michelangelo機器學習平台的介紹
第一代機器學習平臺
第二代機器學習平臺上的大規模深度學習訓練與Ray
第三代機器學習平臺的演進：採用Ray進行高性能超參數優化
Michelangelo機器學習平臺的新特性：彈性特徵生成和模型部署
結語

Uber's Michelangelo機器學習平台的介紹

Uber的Michelangelo機器學習平臺是一個端到端的機器學習平臺，與Uber的數據基礎設施良好地集成在一起，以幫助我們的機器學習工程師快速開發和生產化他們的模型。Michelangelo平臺支持多種機器學習模型，包括傳統的機器學習模型和深度學習模型。

第一代機器學習平臺

Uber的第一代機器學習平臺是基於Spark的，它是一個基於分佈式計算的單一Spark應用程序。這個平臺主要依賴於Spark的功能，支持批處理和實時預測服務。在這個平臺上，模型訓練、特徵處理和模型使⽤是由Spark的計算網絡完成的。然⽽，隨著Uber對深度學習的需求不斷增加，Spark平臺開始顯⽰⼀些限制。儘管Spark提供了很⼤的靈活性和展開性，但對於分佈式深度學習訓練來說，它並不⾼效。此外，這個平臺也無法很好地支持彈性特徵生成和模型部署，這是使用深度學習模型時常常遇到的問題。

第二代機器學習平臺上的大規模深度學習訓練與Ray

為了解決第⼀代機器學習平臺的限制，Uber開始採⽤Ray作為第⼆代機器學習平臺的計算框架。Ray提供了⼤規模分佈式計算的功能，同時也簡化了分佈式深度學習訓練的實現。通過Ray，Uber能夠更好地處理深度學習訓練所需的大量計算和內存消耗。此外，Ray還提供了⼀些強大的分佈式計算原語，如遠程任務和硬件感知的任務調度，這使得Uber能夠更好地使用計算資源，從⽽更有效地進⾏大規模深度學習訓練。

第三代機器學習平臺的演進：採用Ray進行高性能超參數優化

Uber的第三代機器學習平臺進一步整合了Ray，並通過Ray Tune庫實現了高性能超參數優化。超參數優化是指選擇最佳超參數值的過程，以最大化模型的性能。在過去，Uber使用的是自家開發的Autotune服務進行超參數優化，但隨著模型變得越來越複雜，Autotune服務面臨一些瓶頸。

為了解決這些問題，Uber將Autotune服務改造為基於Ray的Retune服務。Retune提供了更靈活的超參數優化功能，能夠更有效地探索超參數空間。通過Retune，Uber能夠加速超參數優化過程，同時更好地支持動態調整超參數值以及彈性擴展計算資源等功能。

Michelangelo機器學習平臺的新特性：彈性特徵生成和模型部署

除了大規模深度學習訓練和高性能超參數優化之外，Uber的Michelangelo機器學習平臺還引入了其他新特性，包括彈性特徵生成和模型部署。通過這些新特性，Uber能够更靈活地生成特徵並快速部署模型。這對於加快模型開發和生產化過程非常有幫助，也提高了Uber的機器學習平臺的整體效能。

第一代機器學習平臺

Uber的第一代機器學習平臺是基於Spark的，它是一個基於分佈式計算的單一Spark應用程序。這個平臺主要依賴於Spark的功能，支持批處理和實時預測服務。在這個平臺上，模型訓練、特徵處理和模型部署是由Spark的計算網絡完成的。然而，隨著Uber對深度學習的需求不斷增加，Spark平臺開始顯⽰⼀些限制。儘管Spark提供了很⼤的靈活性和展開性，但對於分佈式深度學習訓練來說，它並不⾼效。此外，這個平臺也無法很好地支援彈性特徵生成和模型部署，這是使用深度學習模型時常常遇到的問題。

第二代機器學習平臺上的大規模深度學習訓練與Ray

第三代機器學習平臺的演進：採用Ray進行高性能超參數優化

為了解決這些問題，Uber將Autotune服務改造為基於Ray的Retune服務。Retune提供了更靈活的超參數優化功能，能夠更有效地探索超參數空間。通過Retune，Uber能夠加速超參數優化過程，同時更好地支援動態調整超參數值以及彈性擴展計算資源等功能。

Michelangelo機器學習平臺的新特性：彈性特徵生成和模型部署

除了大規模深度學習訓練和高性能超參數優化之外，Uber的Michelangelo機器學習平臺還引入了其他新特性，包括彈性特徵生成和模型部署。通過這些新特性，Uber能夠更靈活地生成特徵並快速部署模型。這對於加快模型開發和生產化過程非常有幫助，也提高了Uber的機器學習平臺的整體效能。

結語

Uber的Michelangelo機器學習平臺在過去的幾年中經歷了多次演進，從第一代基於Spark的平臺到目前的基於Ray的平臺。這些演進的背後是Uber對深度學習的不斷需求增加和技術的快速發展。通過採用Ray，Uber能夠更好地處理大規模深度學習訓練和高性能超參數優化等挑戰，同時也提高了機器學習平臺的靈活性和效能。未來，Uber還將繼續推進Michelangelo機器學習平臺的發展，引入更多的新特性和功能，以滿足不斷變化的業務需求。