サーバアクセス制御問題をQ-learningで学習する

下図に示すサーバシステムへ, 0から3までの優先度を持つ顧客がアクセス要求を行う. あなたはアクセス要求を受け入れる(accept)するか, 拒絶する(reject)かのどちらかの行動を選択できる. サーバに空きがあるときに顧客のアクセス要求を受け入れると, 顧客の優先度に応じて報酬が与えられる.
サーバの空き状況と到着した顧客の優先度に応じて,適切に アクセスをコントロールする必要がある.

以下にサーバアクセス制御問題をQ-learningで解くアプレットを示す。
Discount rateは割引率,Learning rateは学習率を表す。 行動選択戦略としてε-greedy戦略をとる。これらの値はスクロールバー によって調節可能である。
[Run]ボタンを押すと学習を開始する。

Q-learningエージェント

INTERACT.gif(2.2KB)

環境

Q-learningエージェントの表示について以下に説明する。
QAPPLET.gif(11.3KB)
Q-learningアルゴリズムの詳細は 3.3 マルコフ決定過程(MDP)の環境における強化学習(Q-learning)を参照。
十分に時間が経過して,正しくQ値の推定学習がなされた場合, 最大のQ値を持つ行動が最適な行動となる。 このとき,ε-greedy行動選択戦略においてε=0とすれば, エージェントは最適な行動を実行する。


もどる