タクシーの例題で強化学習エージェントの気分を味わってみる

A Taxi Management Problem
See the English version of this page.

あなたは A, B, C の3つの町を運転して回るタクシーの運転手である. それぞれの町において,以下の (Act0), (Act1), (Act2) の3つの行動のうち 一つを選択して実行できる.
(Act0) 町中を流して客を拾う.
(Act1) タクシースタンドへ行って客を拾う.
(Act2) 無線連絡による呼出しで客を拾う.
行動を実行して客を拾うと,状態が遷移して報酬が得られる.

以下のアプレットは上記のタクシー問題の環境である。 (Act0),(Act1),(Act2)の3つのボタンはそれぞれの行動を表す。
強化学習エージェントになったつもりで行動選択できる。

問題:長期的に考えて最も利益が大きくなるには,各都市において どのような行動をとれば良いだろうか?
Let's try!
本例題を代表的な強化学習アルゴリズム「Q-learning」を使って解いてみる
もどる