モンテカルロ将棋

小宮さんも取り組んでいるみたいですね.遠見(MC)もUCTを適用しただけでかなりまともになった気がします.選択式は単純なUCB1とTURNEDでは明らかに性能が違った気がします.
 ちなみに遠見(MC)ではSEEを使用しています.SEEも積み重なるとかなり時間のかかる処理になってしまうので1000po/secくらいしか出ていません.ただ,将棋の場合駒の損得はかなり大きな要因なので,極端な話SEEを導入すればその他の特徴を全く考慮しなくてもそれなりの性能が出せると思います.
 個人的には末端で評価関数を呼び出すのはあまりお勧めしません.多少無理やりにでも終局に向かわせて勝敗を求める方がいいと思います.

学習はじめました

(理由) floodgateで負けまくって,これはもう一発逆転を目指して学習しかないと思った.

とはいっても選手権までそんなに時間があるわけではないので,2月中に目処がつかなければやめると思います.

昨日早速国会図書館に行って,保木さんの論文(GPW2006)を手にいれてきました.書いてあることは発表資料のpdfのものとほとんど同じかな.alphabetaの探索幅を制限できるということは,言われてみればなるほどという感じなんだけど,全然気づきませんでした.やはり頭のいい人は目の付け所が違うなぁと.

とりあえず棋譜100局で駒の価値を学習してみました.ちなみにM1(v),M2(v)については,まだあまり良く理解できていません….まぁ駒の価値だけならとりあえずM2(v)はいらなそうなので.

120266336488538598646
成香成桂成銀
630432766582788810
学習前: J(v) = 404823.50
  学習後: J(v) = 176281.09
サンプル数が少ないので成り駒の価値は笑える感じなのですが,一応それなりに動いてそうな.
(追記)
棋譜の数を増やしたら上の表よりかなり理想的なものに近づきました.が,やっぱり成香,成銀の価値が若干低いようです.レーティングを求めたときも成香の価値はやたら低かったような気がするので,もしかしたらデータの問題かも.