コンピュータ大貧民の研究報告を読む
「方策勾配法による局面評価関数とシミュレーション方策の学習」の中で教師有り学習についても提案されている。この研究報告は数式が難しそうで読める気がしない(クズ)が、この手法が最近、コンピュータ大貧民に持ち込まれ、一定の成果を上げている。 これはコンピュータ大貧民大会(UECda)に二年連続で優勝してテレビにも出演した大渡氏による(すごい)。詳細は研究報告「方策勾配を用いた教師有り学習によるコンピュータ大貧民の方策関数の学習とモンテカルロシミュレーションへの利用」を読まれたい。(コメント欄に修正版リンクを張っていただいたので参照のこと。)
この学習においては次のような誤差関数を最小化することで、評価関数のパラメータをチューニングするようだ。 数式の意味とかは研究報告を参照として、ここから更新式を導出するまでをとりあえず追ってみたい。
が決定的とは、局面での教師の行動がのとき
が成り立つということなので(以外では0となる)
で、これが式である。
式の更新式は、この式をによって偏微分することで得られる。
第1項は自然対数なので簡単に計算ができて
第2項は少し複雑になるが、同じようにできて、最後にの式が現れるので置き換えられる。
それで結局
となって更新式が得られる。 これに学習係数をかけて、実際には更新を行っているようだ。
参考文献
- 五十嵐治一,森岡祐一,山本一将, 方策勾配法による局面評価関数とシミュレーション方策の学習, 研究報告ゲーム情報学 (GI), 2013-GI-30(6), 1-8, 2013.
- 大渡勝己, 田中哲朗, 方策勾配を用いた教師有り学習によるコンピュータ大貧民の方策関数の学習とモンテカルロシミュレーションへの利用, 研究報告ゲーム情報学(GI), 2016-GI-35(10), 1-8, 2016.
- 2の訂正版