ICML98/UAI98/AAAI98 (7/24--30, 1998) 参加報告
15th International Conference on Machine Learning (ICML98)
15th National Conference on Artificial Intelligence (AAAI98)
Madison, Wisconsin, USA
平成 10年 9月 2日小林(重)研 木村の研究会資料より(2000.10.17作成)
国際会議全体について
今回のICMLはUAIおよびCOLTと合同で行われた。
ICMLが最も活気があり、UAIとCOLTはそれに便乗しているようにも見えた。
ICMLは2つのセッションが並列に進行し、全ての発表者は25分のプレゼンおよび
ポスターセッションでの発表があった。
今回はSutton, Kaelbling, Singh, Littman, Moore, Mahadevan などの主だった
強化学習の研究者がほとんど顔を揃えた.
またCMUのJ.Schneider(Mooreの弟子)やオーストラリアのPendrithという研究者らが
常連と化していた.
ICMLの直後にAAAI98があった.
近くのかなり大きな会議場へ会場を移して行われた。
全体の規模はAAAIの方がずっと大きく,多くの楽しいイベントがあった.
今回参加した国際会議において,推論や意志決定に関係するAI研究分野では,
不確実性を扱えるような枠組でなければ相手にもされず,
確率論や統計学の研究者がもてはやされている状況だった.
AIをロボットへ応用する研究では,移動ロボットのナビゲーションに関する
ものが多かった.正確には,発表件数は少なかったがデモなどが多かった.
また,(動)画像入力をセンサ入力としたAI制御などは見当たらなかった.
強化学習研究の動向
強化学習関連の発表は,ICMLで14件,AAAIで4件ほどあり、
研究者の関心を集める最もホットな分野であるが、
データマイニング等データベースからの知識獲得などの分野に比べると、
企業の利益に直接つながる応用は難しいという感じだった。
- Reinforcement Learning: How Far Can It Go? (Sutton, Invited Talk)
強化学習の概要と今後の展開についての話.
COLT/ICML/UAI合同のInvited Talkで,
広大な会場が大入り満員になるほどの盛況だった.
- タスクをマルコフ決定過程(MDP)に変換するような状態表現,
行動表現,報酬表現,状態遷移表現を生成することがカギ
- 状態遷移(transition)表現とは,状態遷移イベント発生などを
意味し,具体的にはセミマルコフ決定過程などに関係する.
- 階層化も重要
- POMDP環境:
- [ICML]An Analysis of Direct Reinforcement Learning in
Non-Markovian Domains, M.Pendrith and M.McGarity
モンテカルロ法によるメモリレス強化学習の解析,POMDP, 平均\&割引報酬,
状態数無限の場合等
- [ICML]Using Eligibility Traces to Find the Best Memoryless
Policy in Partially Observable Markov Decision Processes,
J.Loch and S.Singh
Sarsa(λ)を用いてグリッドワールドでの実験のみ
- [ICML]Learning sorting and decision trees with POMDPs,
B.Bonet and H.Geffner
Sortingと決定木の学習問題をPOMDP問題として定式化(強化学習ではない)
- 環境同定と報酬獲得のトレードオフ(Exploration and Exploitation trade-off):
- [ICML]Near-Optimal Reinforcement Learning in Polynomial Time,
M.Kearns and S.Singh
学習時間が限られる場合の強化学習,MDP,平均報酬,割引報酬
- [AAAI]Bayesian Q-learning, R.Dearden, N.Friedman and S.Russel
報酬の確率分布を仮定することで,Q値の分布を考え,情報論的に適切な探査戦略の提案と収束の証明
- 複数種類の報酬:
- [ICML]Multi-Criteria Reinforcement Learning,
C.Szepesvari, Z.Kalmar and Z.Gabor
QLの更新式にうまく組み込んである
- マルチエージェント:
- [ICML]Multiagent Reinforcement Learning: Theoretical
Framework and an Algorithm, J.Hu and M.Wellman
ナッシュ均衡を最適とするQ-learning
- [AAAI]The Dynamics of Reinforcement Learning in Cooperative
Multiagent Systems, C.Claus and C.Boutilier
報酬に遅れが無い協調ゲームをQ-learningで解く.解析もある
- 階層化:
- [ICML]The MAXQ Method for Hierarchal Reinforcement Learning, T.Dietterich
収束定理および実験
- セミマルコフ決定過程:
- [ICML]Intra-Option Learning about Temporally Abstract Actions,
R.Sutton, D.Precup and S.Singh
時間ステップは離散だが,イベント発生間隔は乱数
- プラニング+強化学習:
- [ICML]RL-TOPS: An Architecture for Modularity and Reuse in
Reinforcement Learning, M.Ryan and M.Pendrith
複雑なタスクを分割,状態をHigh, Lowの2階層で区別
- [AAAI]Applying Online Search Techniques to Continuous-State
Reinforcement Learning, S.Davis, A.Y.Ng and A.Moore
関数近似性能が低いため生じる不完全なValue Functionを,
環境モデル + online-searchで対処(連続な状態空間の扱いとも関連)
- 連続な状態空間の扱い
- [AAAI]Tree Based Discretization for Continuous State Space
Reinforcement Learning, W.T.B.Uther and M.M.Veloso
G-Algorithm (Chapman91) とU-Tree Algorithm (McCallum95) を改良した
Continuous U-Treeアルゴリズムを提案.
連続値の状態入力を決定木によって各軸ごとに分割し,各ノードの状態遷移先
の情報を用いてさらに分割していく.Kolmogorov-Sminov 検定を利用.
- ゲーム:
- [ICML]Knightcap: A Chess Program that Learns by Combining
TD(lambda) with Game-Tree Search, J.Baxter, A.Tridgell and L.Weaver
TDLeaf($\lambda$)アルゴリズム (前期のゼミで坪井君が紹介)
坪井君が作成した日本語訳資料をプレゼントしてきました.
Baxterさんは``Oh, fantastic!''と喜んでました.
- 応用:
- [ICML]Learning to Drive a Bicycle Using Reinforcement
Learning and Shaping, J.Randlov and P.Alstrom
Sarsa(λ) + Replacing Trace を用いて自転車の制御
- [ICML]Value Function Based Production Scheduling,
J.Schneider, J.Boyan, and A.Moore
生産システムのスケジューリング問題をMDPの強化学習問題へ定式化
- その他:
- [ICML]A Learning Rate Analysis of Reinforcement Learning
Algorithms in Finite-Horizon, F.Garcia and S.Ndiaye
有限期間のQ-learning
- [ICML]Relational Reinforcement Learning,
S.Dzeroski, H.Blockeel and L.De Raedt
Inductive Logic Programming + 強化学習
Heuristicなアルゴリズムの提案に解析が伴わない場合は,大規模な問題に適用した
実験を示さないと論文が通りにくいようである.
理論的にしっかりした研究は通りやすいが,面白みが少ないためかそれだけでは
インパクトが小さい.
チェスの強化学習のように大規模なアプリケーションを扱った研究が
特に人気を集めていた.
連続な状態空間におけるValue Functionの関数近似の不完全性という問題意識が
出てきている点は面白い.
この問題への対処方法として環境モデルとオンラインサーチを組み合わせるアイデア
がDavisらによって示されているが,BaxterらのKnightcapもかなり似た
性質を持っている.
適正度の履歴を用いるActor-Criticでは,この問題に対して政策関数の適正度の履歴
を用いて対処している.
それぞれのアプローチは組み合わせることも独立に動作させることも可能.
POMDPに関しては,単純なメモリレス強化学習法の意義が認められつつあるが,
完全なモンテカルロ法によってValueやQ値を推定する接近法が主流.
ICMLの会場でNIPS10の他,教科書を数冊購入.
階層化に関して,フラットなMDPから別のMDPへと問題を変換し,
その変換されたMDPで最適化することによりフラットなMDPよりも
解の質は劣るが学習速度の点で優れるという報告があった.
ICMLで発表された階層化は,このNIPS10中の報告に基づいていた.
階層の仕様はあらかじめ設計者が与える.
MEMO
1) セミマルコフ決定過程
2) AIC等の統計理論に基づくモデル構築,階層化
3) モデルおよび階層化による知識の再利用
4) モデル + ローカルサーチによる不完全なValue Functionへの対処
映像記録
LEGOを用いたロボットによる競技の様子1
LEGOを用いたロボットによる競技の様子2
Find Life on Mars競技におけるロボットの様子1
Find Life on Mars競技におけるロボットの様子2
トレーラートラック後進制御用のLEGO実験装置
トレーラートラック後進制御の実演
フィールドに散らばるユニットを収集するLEGOロボットのデモ1
フィールドに散らばるユニットを収集するLEGOロボットのデモ2
フィールドに散らばるユニットを収集するLEGOロボットのデモ3
フィールドに散らばるユニットを収集するLEGOロボットのデモ4
フィールドに散らばるユニットを収集するLEGOロボットのデモ5
パーティ会場のサーバロボットの人気投票のための投票箱
パーティ会場のサーバロボット1
パーティ会場のサーバロボット2
パーティ会場のサーバロボット3
パーティ会場のサーバロボット4
SONYのAIBOを用いたデモ1
形状記憶合金のアクチュエータを使った昆虫ロボット1
形状記憶合金のアクチュエータを使った昆虫ロボット2
Madison市街を走る線路。お花がきれい1
Madison市街を走る線路。お花がきれい2
Madison市街中心の議会/行政施設屋上にて(木村)
Madison市街中心の議会/行政施設屋上にて(山村先生)
Madison市街のすぐ横にある湖のほとりにて(木村)
Madison市街のすぐ横にある湖のほとりにて(山村先生)
Madison市街のすぐ横にある湖のほとりにて(あひる)
湖の中の半島から湖を臨む1
湖の中の半島から湖を臨む2
湖の中の半島から湖を臨む3
湖の中の半島に走るハイキングコース1
湖の中の半島に走るハイキングコース2
湖の中の半島中にある泥炭地1
湖の中の半島中にある泥炭地2