AIがスーパーマリオのスピードランを学ぶ

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News JP AIがスーパーマリオのスピードランを学ぶ

AIがスーパーマリオのスピードランを学ぶ

はじめに
AI による速runの基本理論
Super Mario Bros のリメイク
PPO アルゴリズムの実装と説明
AI のトレーニングと報酬関数の設計
AI の学習過程と進歩
AI のスピードラン記録への挑戦
スキップ技の問題とトレーニング予算
2つの追加レベルの挑戦
AI の最終的な成果と課題

1. はじめに

この動画では、世界最速のスーパーマリオブラザーズのスピードランに挑戦する様子が紹介されています。

2. AI による速runの基本理論

スピードランとは、ゲームをできるだけ早くクリアすることを目指すプレイスタイルのことです。AIによるスピードランでは、ゲーム開発者がゲーム環境を作成し、AIモデルをトレーニングして最適なプレイを学習させます。

3. Super Mario Bros のリメイク

スーパーマリオブラザーズのゲーム環境を作成するために、まずはチュートリアルを参考にしてゲーム開発を行います。しかし、既にGoons Open AIという団体がマリオの環境を作成していることを知ります。

4. PPO アルゴリズムの実装と説明

AIモデルのトレーニングにはPPO（Proximal Policy Optimization）アルゴリズムを使用します。PPOは、ゴンバたちを倒すためにマリオに最適な行動を学習させるアルゴリズムです。マリオが悪い行動を取った場合には罰を与え、良い行動を取った場合には報酬を与えることで、マリオの意思決定アルゴリズムを更新していきます。

5. AI のトレーニングと報酬関数の設計

マリオの報酬関数を変更し、速さや生存時間に応じて報酬を与えるように設計します。また、マリオが旗まで進むことを報酬とすることで、スピードランの目標を達成するようにします。

6. AI の学習過程と進歩

トレーニングの反復を通じてAIモデルを訓練し、ゲームの進行に合わせてマリオの行動を改善させます。5回のイテレーション後、マリオはパイプをジャンプして超えることを学びました。

7. AI のスピードラン記録への挑戦

AIモデルの学習を進めることで、マリオがレベルをクリアするスピードが向上しました。最終的には、AIが1分未満でレベルをクリアすることに成功し、スピードランの記録に挑戦できるレベルに到達しました。

8. スキップ技の問題とトレーニング予算

AIモデルの入力が足りないため、パイプに入るためのダウンボタンを設定できないという問題が発生しました。このため、スキップ技を実現することはできないかもしれません。また、トレーニングには高額なGPUが必要であり、予算の問題も発生しました。

9. 2つの追加レベルの挑戦

残りの予算を考慮し、スキップ技のない2つのレベルに挑戦することにしました。5-2レベルでは、AIモデルが440イテレーションで速度を向上させました。

10. AI の最終的な成果と課題

数時間のトレーニングを経て、AIモデルは2110イテレーションで世界レコードに挑戦するスピードランを達成しました。しかし、一部の不正確なコードにより、予算の問題が発生しました。これを解決するためには追加の予算が必要です。

要約

この動画では、AIを使用してスーパーマリオブラザーズのスピードランに挑戦する様子が紹介されています。AIモデルのトレーニングにはPPOアルゴリズムが使用され、報酬関数の設計やトレーニングの反復によってマリオの行動が改善されます。AIモデルは時間の経過とともに進化し、最終的には世界レコードに挑戦するスピードランを達成します。しかし、資金不足やスキップ技の問題などの課題もあります。