Hopsworks特徴ストアデモ
【目次】
- はじめに
- Hopsworksの特徴
- Hopsworksの主な機能
- プロジェクトと特徴グループ
- 特徴の管理と検索
- 特徴グループの詳細
- オンデマンド特徴グループ
- ストレージコネクタの活用
- 特徴グループの作成
- トレーニングデータセット
- ジョブの実行とモニタリング
- 外部環境での使用
Hopsworks特徴ストアとは何ですか? 👀
Hopsworks特徴ストアは、チームが選んだツールを使用して特徴エンジニアリング、モデルトレーニング、およびモデルのサービングを行うためのオープンな特徴ストアです。DatabricksやSagemaker、MLflowを使用している場合でも、Hopsworks特徴ストアはデータサイエンスツールチェーンに統合されます。Hopsworksはプロジェクトを中心に組織されており、プロジェクトごとに1つの特徴ストアと複数のプロジェクトが作成できます。本クラスターでは、開発、本番、ステージング、およびデモプロジェクトをセットアップしています。
Hopsworksの特徴
Hopsworks特徴ストアには以下の特徴があります:
1. プロジェクトと特徴グループ
Hopsworksでは、プロジェクトごとに特徴ストアと特徴グループを作成できます。プロジェクトごとに独立性を保ちながら特徴を管理できます。
2. 特徴の管理と検索
Hopsworks特徴ストアでは、豊富な特徴を直感的に管理できます。特徴グループや特定の特徴を検索することもできます。
3. 特徴グループの詳細
特徴グループには、特徴のバージョンやスキーマ、タグなど、詳細な情報が表示されます。また、特徴の統計情報も自動的に生成されます。
4. オンデマンド特徴グループ
Hopsworksでは、特徴ストアではなく外部のデータウェアハウスやデータレイクにデータを保存するオンデマンド特徴グループの作成も可能です。
5. ストレージコネクタの活用
Hopsworksは、主要なデータウェアハウスやオブジェクトストアに対応したストレージコネクタを提供しています。Redshift、Snowflake、ADL、S3、JDBCなどのデータソースに接続することができます。
6. トレーニングデータセット
Hopsworksでは、再利用可能な特徴とは別に、特定の範囲の時間や地理情報などに基づいてトレーニングデータセットを作成できます。
7. ジョブの実行とモニタリング
Hopsworksでは、Sparkやその他のジョブを実行し、モニタリングする機能があります。ジョブの成功や失敗、Spark UIの表示など、ジョブの詳細情報を確認できます。
8. 外部環境での使用
Hopsworks特徴ストアは、PythonやSparkの環境から簡単にアクセスできます。SagemakerやDatabricksなど、さまざまな環境での使用が可能です。
以上が、Hopsworks特徴ストアの主な機能です。これらの機能を活用することで、特徴エンジニアリングとモデルのトレーニングを効率的に行えます。Hopsworksの導入を検討しているなら、ぜひ詳細を調べてみてください。
【ハイライト】
- Hopsworksはオープンな特徴ストアであり、データサイエンスツールチェーンに統合されています。
- プロジェクトごとに特徴ストアと特徴グループを作成できます。
- 特徴の管理と検索が直感的に行えます。
- 特徴グループには詳細な情報が表示され、統計情報も自動的に生成されます。
- オンデマンド特徴グループを使用することもできます。
- 主要なデータウェアハウスやオブジェクトストアに対応したストレージコネクタが利用できます。
- トレーニングデータセットを作成し、ジョブを実行・モニタリングすることができます。
- PythonやSparkなどの外部環境でも使用が可能です。