An Access Control Task Problem

下図に示すサーバシステムへ, 0から3までの優先度を持つ顧客がアクセス要求を行う. あなたはアクセス要求を受け入れる(accept)するか, 拒絶する(reject)かのどちらかの行動を選択できる. サーバに空きがあるときに顧客のアクセス要求を受け入れると, 顧客の優先度に応じて報酬が与えられる.
サーバの空き状況と到着した顧客の優先度に応じて,適切に アクセスをコントロールする必要がある.

以下のアプレットは上記のサーバアクセス制御問題の環境である。 (Accept),(Reject)のボタンはそれぞれの行動を表す。
強化学習エージェントになったつもりで行動選択できる。

問題:長期的に考えて最も利益が大きくなるには, どのような行動をとれば良いだろうか?

Let's try!
本例題を代表的な強化学習アルゴリズム「Q-learning」を使って解いてみる
もどる