EC2上でMLワークロードをスケーリング | 性能または生産性を追求するAI | Intel Innovation 2022
目次
- AWS MLスタック
- EC2上のML
- トレーニングと推論
- HPCとMLの融合
- AWS ML Frameworksチームについて
- MLワークロードのスケーリング
- 証明プロジェクトの重要性
- PyTorchとの提携
- 昨今のディープラーニングの動向
- 機械学習の戦略
⭐AWSのMLスタック
AWSのMLスタックは、私たちがサポートする3つの顧客クラスを表すように作成されました。最上位のAIサービス層は、モデルのトレーニングなしでAIの機能を組み込みたい顧客向けのものです。中間層のSageMaker層は、完全に管理されたオファリングの一部であり、データ準備、データ加工、トレーニング、展開、MLOpsまでを網羅しています。最下層のフレームワークとインフラストラクチャ層では、さまざまなツール、コンピューティングインスタンス、オーケストレーションの選択肢、ワークフローソリューションを提供しています。
💡AWS ML Frameworksチームについて
私たちのチームは、4つの主要なエリアに焦点を当てています。
1. MLワークロードのスケーリング
核となるEC2サービスとオープンソースツールを使用して、MLワークロードをスケールさせるためのアーキテクチャを開発しています。顧客は、どのインスタンスをどのワークロードに使用するかについてのガイダンスを求めており、特にML推論の分野では、多くの仕事が現在CPU上で実行されているため、Intelとのパートナーシップの重要性を強調しています。最近では、Intelとの協力により、dl1インスタンス上で非常に大きなモデルのトレーニングが可能になりました。
👍プロ
- インスタンスの適切な選択に関するガイダンス
- Intelとのパートナーシップによるソフトウェアの最適化
- dl1インスタンスを活用した大規模なモデルのトレーニング
👎コン
- カスタムMLプラットフォームの構築時の複数の選択肢に直面する課題
2. 証明プロジェクトの重要性
"アート・オブ・ザ・ポッシブル"を実証するために、証明プロジェクトの加速化が非常に重要です。顧客は、概念実証から本番環境への展開までの過程でのガイダンスを求めており、私たちはそのニーズに応えるために努力しています。
👍プロ
- 概念実証の加速化
- 顧客の成功に寄与するハンズオン作業
👎コン
- カスタマイズされたMLプラットフォームの構築には時間とリソースが必要
3. PyTorchとの提携
私たちはFacebook(meta)と提携して、PyTorchの採用と拡大を支援しています。これにより、顧客はAWS上でPyTorchを使用して大規模なMLワークロードを効果的に扱うことができます。
👍プロ
- PyTorchの採用と拡大を支援
- AWS上でのPyTorchのスケーリング能力
👎コン
- PyTorch以外のフレームワークのユーザーには適用されない
4. 昨今のディープラーニングの動向
過去3年間で、モデルのサイズと複雑さが増してきています。最先端のNLPモデルは、200億パラメータから1兆パラメータ以上の複雑さにまで成長しました。この動向は、分散トレーニングの重要性を増大させており、何百、何千という数のアクセラレータ上でモデルがトレーニングされるようになっています。
👍プロ
- モデルの規模と複雑さに合わせた革新的なトレーニングとデプロイの方法論の開発
- ネットワークボトルネックのアドレスによるトレーニング効率の向上
👎コン
- 大規模なクラスターでのトレーニングと推論には高いコストがかかることがある
HPCとMLの融合
HPC(High Performance Computing)とMLのワークロードは、多くの点で関連しており、特にCPUによって駆動されています。私たちは、Intelとの協力関係を強化し、これらのHPCとMLのワークロードを支援しています。
💡フォーミュラワン向けのML証明プロジェクト
フォーミュラワンでは、車両のジオメトリを最適化し、パフォーマンスを最大化することが目標です。リードカーのジオメトリを変更することで、追従する車両の下向きの押し出し力を減少させることができます。私たちは、3Dジオメトリと入力フロー場を使用して、ディープラーニングモデルを開発しました。これにより、リードカーのジオメトリを微調整し、出力フロー場の結果を確認できます。これは従来の分析では不可能であり、Intelと共同してこのような大規模な課題を解決しています。
👍プロ
- 車両形状の最適化による追従車両のドラッグ抵抗の減少
- 3Dジオメトリとディープラーニングの組み合わせによる効果的な解決法
👎コン
- 高負荷のワークロードに対応するために高価な計算リソースが必要
まとめ
AWSのML Frameworksチームは、顧客のニーズに合わせてMLワークロードをスケーリングし、効率的に処理するためのソリューションを提供しています。適切なインスタンスの選択、パフォーマンスの最適化、モデルのビンパッキングなど、さまざまな戦略を組み合わせることで、顧客の成功に貢献しています。
私たちは、Intelとのパートナーシップにより、ソフトウェアの最適化や計算リソースの最適化など、さまざまな面で顧客をサポートしています。HPCとMLの融合により、さらなる革新が可能となり、顧客のニーズに応えることができます。
💡ハイライト
- AWSのMLスタックは、3つの顧客クラスに対応しています(AIサービス、SageMaker、Frameworksとインフラストラクチャ)。
- AWS ML Frameworksチームは、MLワークロードのスケーリング、証明プロジェクトの加速化、PyTorchの採用拡大、ディープラーニングの新しい動向に焦点を当てています。
- HPCとMLの融合により、フォーミュラワンなどの課題に対する新しい解決法が生まれています。
❓よくある質問
Q: AWSのMLスタックはどのような特徴がありますか?
A: AWSのMLスタックは、AIサービス、SageMaker、Frameworksとインフラストラクチャの3つの層から成り立っており、顧客のニーズに応じて選択できるようになっています。
Q: フォーミュラワンのML証明プロジェクトでは、どのような目標がありますか?
A: フォーミュラワンのML証明プロジェクトでは、車両形状の最適化により、追従車両のドラッグ抵抗を減少させることが目標です。
Q: MLワークロードのスケーリングにおいて、どのような戦略が有効ですか?
A: 代表的な戦略として、適切な並列処理の選択、線形スケーリング、複数のアクセラレータの使用などがあります。