ICML99 (6/26--30, 1999) 参加報告

16th International Conference on Machine Learning (ICML99)
Bled, Slovenia
平成 11年 7月 7日小林(重)研 木村の研究会資料より(2000.10.17作成)

国際会議全体について

今回のICMLはILP(International conference on Logic Programming)とほぼ合同 で行われた。 ICMLの全ての発表者は25分のプレゼン(発表20分,質疑5分)および ポスターセッション(2時間)での発表があった。
ICML99 ポスターセッションの様子
論文賞などにノミネートされた優れた論文はプレナリセッションで発表され、 それ以外の論文は2つのセッションで並列に進行された。

今回の参加者のうち主だった強化学習の研究者としては Sutton, Boyan, Mahadevan などが出席していたが, Kaelbling, Singh, Littman などは来ていなかった.
野外Pubにて 左からNicolas氏,木村,Dr.Sutton
またCMUのJ.Schneider(Mooreの弟子)やDietterichという研究者が来ていた. 強化学習以外の大御所としてはDecisionTreeのQuinlanや行動科学や認知モデルの J.R.Andersonが招かれていた.

野外パーティや城内コンサートなど楽しいイベントがあったが,IJCAIやAAAIな どのような実機によるデモンストレーションなどは全くなかった.
野外パーティの様子1
野外パーティの様子2
会議場の前にある湖とお城
お城の上から湖を臨む
城内での歓迎演奏会の様子
湖上の島に建てられた教会1

今回参加した国際会議において,AIの応用に関する際だった傾向として WEB上から必要なデータを効率よく収集するためのシステムが目立った. (Invited Talk 1件,テクニカルセッションでの発表4件)


Suttonのチュートリアル:Reinforcement Learning

強化学習の概要についての説明. (私はすでに強化学習の基本については理解しているので, 主に一般人へ強化学習を説明するプレゼンテーション方法の参考にするために聴講した) Suttonの主張のうち,いくつか印象に残ったものを以下に挙げる.

【MEMO】 ビールを飲みながらDr.Suttonと強化学習談義。Dr.Suttonは”Value function is life!” などと言っていた。そういえば私のボスの小林先生は「世の中これ全て最適化だ!」と 主張されてるし,制御の原先生は「世の中全てフィードバック制御だ」と主張されてた。 その道を極めた学者はみなそれぞれ独特の極論ともいえる思想をもっているなあと感心。


Dietterichのチュートリアル:Hierarchical Reinforcement Learning

階層的強化学習についての解説.ビデオ等によるデモなどは無かったが, いろいろなアプローチを体系的にまとめており,参考になる.

【MEMO】迷路問題の説明において,ロボットが壁にぶつかるとはね返る様子を 「ボインボイン」と言っていた。欧米人の学者が擬態語・擬声語を使うのは珍しいので、 印象に残った。


テクニカルセッション:強化学習研究の動向

テクニカルセッションにおける強化学習関連の発表は 12件ほどあり、 依然として研究者の関心を集める分野であるが、 企業の利益に直結するような応用はまだ少ない.

今回は強化学習の枠組をマルチエージェントへ拡張する研究が進んだように見え る.単に報酬を分配したり個々が勝手に動くのではなく,Valueの情報を伝搬し たり,仮想的な報酬をやりとりするが全体としての報酬量はつじつまが合うよう になっていたりする.しかし解析的にはまだ弱い.

Web関連への適用例が目立って増加したが,方法論的にはバラバラである. 一時的な流行ではないかと批判的な意見もあるが,単に特定のトピックスのペー ジを検索する以外の,別のweb応用へ適用するような研究は増えるかもしれない. 例えばインターネットバナーの宣伝効果を自動的に高めるような強化学習など。

TD(λ)のような適正度の履歴(eligibility trace)を用いる学習方法は, 平均報酬においても成り立つかどうかについてSuttonに意見を求めたところ, 「実はまだ査読中なので話しちゃダメなんだけど…」と言いつつ,Tsitsiklisら がそのようなアルゴリズムを完成させたことを教えてくれた. よって,平均報酬のValue関数を用いたActor-Criticも可能なはずだとのコメン トを得た.

ICML99 ポスターセッションで気になった発表のポスター1
ICML99 ポスターセッションで気になった発表のポスター2
ICML99 ポスターセッションで気になった発表のポスター3
ICML99 ポスターセッションで気になった発表のポスター4
ICML99 ポスターセッションで気になった発表のポスター5
ICML99 ポスターセッションで気になった発表のポスター6
ICML99 ポスターセッションで気になった発表のポスター7

MEMO 【最低限知っていなければならない強化学習の常識】

1) 環境モデル:MDP, セミマルコフ決定過程(SMDP), POMDP
2) 学習アルゴリズム:TD(λ), Q-learning, Sarsa(λ), 政策反復法(Policy iteration)
3) 最適性評価:割引報酬/平均報酬,Value functions, DP
4) 行動選択方法:ε-greedy, ボルツマン選択
5) 関数近似:Linear architectures (table, CMAC), Non-linear (Neural-Network)
6) その他: 適正度の履歴(eligibility trace),モデルベース手法,プラニング, exploration vs exploitation trade-off

映像記録

ICML99 ポスターセッションの様子
野外Pubにて 左からNicolas氏,木村,Dr.Sutton
野外パーティの様子1
野外パーティの様子2
会議場の前にある湖とお城
お城の上から湖を臨む
城内での歓迎演奏会の様子
湖上の島に建てられた教会1
湖上の島に建てられた教会2
湖上の島に建てられた教会3
湖から流れ出す川にかけられた石橋
城壁の下からお城を見上げる
お城の上から城壁の下を見る
お城の正面入口
城内の中庭へ続くスロープ
城内の中庭
湖の東側に続く住宅
宿泊したホテルのビアガーデンのメニュー
野外PUBにて:Dr.Sutton と Nicolas氏
湖に面する道路のトンネル
湖のほとりの水面