水たまり問題 (Puddle World Task)


水たまりを回避するようなゴールへの最短コースを通る問題。

状態空間は2次元の連続値で各軸は[0,1]の範囲である。 エージェントは現在位置の座標を状態として観測する。 エージェントが行動を選択すると、上記の範囲を超えない限り選択された方向 へおよそ0.05の距離を移動する。 移動の際、標準偏差0.01のガウス分布のノイズが各軸方向に付加される。 各時間ステップにおいて-1の報酬に加えて、 水たまり(puddle)に入ることでさらに負の報酬が与えられる。 この水たまりによる負の報酬は、では境界線からの最短距離に-400を掛けた値である。 水たまりは半径0.1で中心座標は (0.1, 0.75) から (0.45, 0.75) までおよび (0.45, 0.4) から (0.45, 0.8) までの位置に配置される。 各試行(episode または trial と呼ばれる)における初期状態はゴール状態を除いて 一様分布で生成される。 ゴール状態は[0.9,0.9]から[1.0,1.0]までの矩形領域である。

このタスクはepisodicなタスクと呼ばれ、マルコフ決定過程の理論上は 初期状態からスタートしてゴール状態まで遷移した後、 永久にゴール状態に留まり続けるような遷移である。 ゴール状態において報酬が常にゼロであるならば、初期状態からゴールに至るまでに 受け取る報酬を最大化する「有限期間」の問題は、ゴールした後もずっと報酬ゼロで 遷移し続けるという「無限期間」の問題と等価になる。 そのため、無限期間の割引報酬を最大化するようなQ-learningなどの強化学習アルゴリズム を用いることができるが、1エピソード実行してゴールに到達してもそのままでは学習できない ので、適当に打ち切って再び適当な初期状態からスタートするということを繰り返す必要がある。
(上のアプレットで[Init]ボタンを押すと適当な初期状態からスタートする)
強化学習エージェントは[Init]ボタンを行動として選択することはできないので注意。

Suttonのオリジナルな問題設定では、移動は東西南北4方向だけだったが、 本問題設定では8方向に拡張した。

参考文献:
Sutton, R. S.:
Generalization in Reinforcement Learning: Successful Examples Using Sparse Coarse Coding,
Advances in Neural Information Processing Systems 8 (NIPS8), pp.1038--1044 (1996).

本例題を代表的な強化学習アルゴリズム「Q-learning」を使って解いてみる
本例題を代表的な強化学習アルゴリズム「SARSA」を使って解いてみる
本例題を強化学習アルゴリズム「Actor-Critic」を使って解いてみる