[W4-2] ノンフリーランス定理とは？

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News JP [W4-2] ノンフリーランス定理とは？

[W4-2] ノンフリーランス定理とは？

自由範囲について
自由範囲の定義
バイナリ分類の課題
学習アルゴリズムとトレーニングセットの関係
分布と関数の存在
テストエラーと確率
サンプルサイズと分類エラー
ノンフリーランス定理の意味
特殊ケースの存在
真の関数とテストエラーの関係

自由範囲について

自由範囲（フリーレンジ）とは、バイナリ分類の課題において学習アルゴリズムが直面する困難さを説明する概念です。まず、自由範囲の定義から始めましょう。

自由範囲の定義

自由範囲定理とは、任意のバイナリ分類の課題において、トレーニングセットのサイズが入力領域のカーディナリティの半分以下の場合、分布と関数の存在に関わらず、テストエラーが一定確率で大きくなるという定理です。つまり、トレーニングセットが十分に大きくない場合、分布やデータ生成プロセスによっては、非常に大きな分類エラーが生じる可能性があるということです。

ただし、自由範囲定理が成立する場合でも、真の関数によってテストエラーが0になるような特殊なケースが存在することに注意が必要です。このようなケースでは、真の関数が非常に滑らかな形状を持つか、非常にシンプルな形状をしているなど、特定の性質を持つことがあります。また、そのような場合でも、トレーニングセットのサイズが入力領域のカーディナリティの半分以下であれば、いかなるアルゴリズムでも正確に学習することは不可能です。

次週は、VC次元理論において、このような良いケースについて詳しく議論します。自由範囲定理を学ぶ理由は、学習の困難さについて理解するためです。小さなサンプルサイズやトレーニングセットでは、与えられた学習ルールが機能しないという反例を提供することができます。

自由範囲定理によると、ある仮説クラスに対して、経験的なリスク最小化のテストエラーが一定の閾値を超える場合があります。具体的には、テストエラーが1/8以上になる確率が1/7未満となる場合です。これは、以前の例におけるパックンノリンの定理から得られます。

なぜこれが成り立つのかというと、パックンノリンの定理では、仮説クラスに属する真の関数fに関する制約があるため、学習ルールが追加の情報を持つことができます。この情報があれば、入力サンプルの個数がx/2以下でも、非常に高いテスト精度を保証できる学習ルールが存在することがわかります。

ただし、自由範囲定理とは異なり、常に教示クラス内の真の関数fに関する情報があるわけではありません。自由範囲定理は、学習ルールを破壊する反例が常に存在することを示しています。常に存在する反例によって、学習ルールが設定する非常に大きなテストエラーが生じます。

自由範囲定理からわかるように、普遍的なアルゴリズムが存在しないため、学習は常に困難です。