詳解不正検知の機械学習チュートリアル

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News JP 詳解不正検知の機械学習チュートリアル

詳解不正検知の機械学習チュートリアル

はじめに
データの接続方法
ベースラインモデルのトレーニング方法
ピコクエリエディタの活用方法
データセットの理解
最初のモデルの作成方法
クラスの不均衡に対処する方法
モデルの評価方法
モデルの改善方法
おわりに

はじめに

この記事では、プリティベース上でエンドツーエンドの不正検出モデルを構築する方法について説明します。具体的には、データの接続方法やベースラインモデルの簡単なトレーニング方法、モデルのクエリ方法についてカバーします。まずはじめに、データの接続方法について詳しく説明します。

データの接続方法

プリティベースでは、データの接続が非常に簡単です。数回のクリックで簡単にデータを接続することができます。構造化データの場合は、Snowflake Bakeryなどのソースからデータを接続できます。また、画像やテキストのような非構造化データの場合は、Amazon S3やGoogle Cloud Storageなどのソースからデータを接続できます。さらに、ローカルディレクトリにデータを保存している場合は、ファイルをアップロードすることもできます。

今回は、元々Cargoにあるクレジットカードのデータセットを使用します。このデータセットはLudwigの背後にあるオープンソースプロジェクトで提供されており、プリティベースを通じて簡単にアクセスすることができます。プリティベースでクレジットカードのデータセットを使用するには、パブリックデータセットの選択画面から該当のデータセットを選び、インポートします。

(タイトル) データセットの理解

選択したクレジットカードのデータセットについて、もう少し詳しく説明します。このデータセットはクレジットカードで行われた取引を含んでおり、数字のみの変数を持っています。データセットは機密情報のため、元の特徴量は提供することができません。データセットを詳しく見るために、ピコクエリエディタを使用しましょう。ピコクエリエディタは、「予測クエリ言語」と呼ばれる言語をサポートしており、プリティベース内で利用できます。簡単なクエリを使用して、特徴量の値を見ることができます。特にV1からV28までの特徴量や時間と金額に注目しましょう。ターゲット変数はクラスで、1は不正であることを示し、0は不正ではないことを示します。データセット内の例がどれだけ不正であるかを確認するために、クエリを実行して値を確認しましょう。

最初のモデルの作成方法

最初のモデルを作成する前に、モデルリポジトリを作成する必要があります。モデルリポジトリはGitのようなリポジトリであり、チームとの共同作業やモデルのトラッキングが容易に行えます。リポジトリ名を「credit card fraud demo one」としましょう。データセットとしてクレジットカードのデータセットを選択し、予測対象の変数をクラスに設定します。それ以外の設定はデフォルトを選択しましょう。これにより、推奨されるベースラインモデルのセットが提供され、一番性能が良いモデルを選ぶことができます。設定が完了したら、「トレーニング」ボタンをクリックします。

トレーニングが完了すると、6つのモデルが表示されます。いくつかのモデルは基本的なニューラルネットワークで作成されていますが、このデータセットではタブラーな特徴量のため、デフォルトのLightGBMモデルも利用できます。各モデルのアーキテクチャや訓練結果を確認し、最も性能の良いモデルを選びましょう。

クラスの不均衡に対処する方法

クラスの不均衡なデータセットを扱う際には、いくつかのテクニックを使用することができます。まず、データセットの事前処理セクションで選択肢の中からオーバーサンプリングやアンダーサンプリングを選択することができます。また、タイプのドロップダウンメニューからストラティファイを選択し、サンプリングに用いる特徴量とそれに対する確率を指定することもできます。さらに、出力特徴量に対するクラスの重みを調整することもできます。例えば、マイナリティクラスに高い重みを与えることができます。