A Maze Problem

迷路問題 (A Maze Problem)：

状態遷移に不確実性がない場合

以下のように，ラベル付けされた現在位置を状態として観測可能な迷路がある。各意思決定において４種類の行動のうちどれか１つを実行すると，その行動に応じた状態遷移を行う。ゴールに到達すると正の報酬が与えられ，ゴール状態で行動を実行すると無条件でS0へジャンプする。(下図とその下のアプレットを参照)
Maze.gif(5.2KB)

よって，獲得報酬を最大化するような制御規則（状態→行動への写像）は，ゴールへ最短パスで到達する制御規則となる。

問題：迷路の全体図を見ないで試行錯誤を行い，ゴールまで最短ステップで到達する制御規則を求めよ。
Let's try!

強化学習アルゴリズムのベンチマークとしてこれに類似する迷路問題は頻繁に取り上げられている。よく見かける迷路問題のデモの多くは迷路全体が（人間に対して）表示されているため，きわめて簡単な問題を扱っているように感じてしまうが（実際簡単なのだが），強化学習エージェントが観測できる情報は，本アプレットのようにごく限られたものである。強化学習エージェントと同じ視点で迷路を見てみると，人間にとってやや難しい問題に見えるだろう。
この迷路に状態遷移の不確実性などが付加されると，きわめて困難な問題になる。

本例題を代表的な強化学習アルゴリズム「Q-learning」を使って解いてみる

もどる