

強化学習の入門書。強化学習は先ごろ良書が刊行されたが、それまではこの本くらいしかなかったようだ。2008年刊の再版なので内容は古め。それ以降に話題となったDQNなどのトピックはない。本文自体は140ページほどで終わり。その後はMatlib/Octaveのインストール方法と、本文で使用しているプログラムのコードが載っている。
強化学習の基本的な概念を解説した後、価値関数の学習方法を離散空間、連続空間で解説。その後、政策を直接近似する方法を扱っている。記述はそれなりに分かりやすい。TD法をはじめとした価値関数の近似方法がいくつか載っている。後に出てくるものが発展的な話題なのかどうか、よく分からない。Q学習なら政策を考えなくてよく、近年はメインで使われているように思えるが、Q学習の解説は正味2ページほど。また、価値関数の近似について高次元のパラメーター推定での難点などが書かれ、政策の直接近似が扱われる。するとなぜ初めから政策近似をやらないのか等、初学者には各手法の位置づけが難しい。
読み終わるのにやや時間がかかってしまった。概念はあまり難しくないが、ある行動以降に得られる報酬を期待値で計算して割引をかけたりするので複雑な式が多い印象。ベルマン誤差あたりは天下りで出てくるため、理解に時間がかかった。
SARSA法の価値関数更新の実装がおかしい気がした。②でなぜmaxがかけてあるのだろう。maxが出てくるのはQ学習ではないのか。正しくはoption.gamma*newQ(state, action)である気がする(p.61)。
スポンサーサイト
- https://exphenomenologist.blog.fc2.com/tb.php/868-963f702c
トラックバック
コメントの投稿