強化学習タスク例題 (Javaアプレット)
- 迷路問題: 〜強化学習のベンチマークの定番〜
問題設定の詳細とデモ
迷路問題をQ-learningで学習する
- 水たまり問題 (Sutton's Puddle World): 〜状態空間が連続値〜
問題設定の詳細とデモ
- タクシーの例題: 〜状態遷移の不確実性が大きい場合〜
問題設定の詳細とデモ
タクシーの例題をQ-learningで学習する
- サーバアクセスコントロールの例題: 〜状態遷移の不確実性と状態空間が大きい場合〜
問題設定の詳細とデモ
- 尺取虫ロボットの前進制御規則獲得: 〜なんとなく生物っぽい〜
問題設定の詳細とデモ
オンラインで強化学習を行うデモ(ICML97にて発表)
- 倒立振子の振り上げ制御規則獲得: 〜状態空間も行動空間も連続値〜
状態空間2次元の問題設定とデモ
状態空間4次元の問題設定とデモ