適当にメモ

あ、本当にメモです。質問された内容など。

  • 確率の求め方

ロジスティック回帰の話は(ライブラリを使っていることもあって)あえて避けた感もありますが、もう少し説明するべきだったと反省しています。今回の話の本質ではないと思うのですが、開発者的には確かに興味のある話ですし、鶴岡さんも文献には詳しく書いていないようなので。これはそのうち。

  • LMR,history pruningとの比較

基本的にどちらもよくない手をreductionする効果に期待した手法だと思うのですが、LMRやhistory pruningなどの「おおざっぱな」手法よりは実現確率探索のほうが優れていると思います。ちなみにGPSはLMR(のようなもの)と実現確率(のようなもの)は両方使っているとのこと。激指は実現確率のみらしいです。一応提案手法だと両方考慮したものになっているはず。
「確率に応じて探索深さを決定する」ということは必ずしも最善ではないので、手作業で延長、reductionを調整しまくればそちらのほうが強くなる可能性はありますが、現実的だとは思えません(これは評価関数についても同じことが言えると思います)。提案手法では、historyなどの値も確率(深さ)に反映して、「それなりに根拠のある値」として利用できるのが利点かと思います。

  • hashを特徴として用いない理由

hash(+再探索の手)は激指同様,特別な扱いをしています。これは、hashを特徴に組み込むと、hashの確率だけ極端に高くなって、その他の特徴の確率が全部持っていかれてしまうような形になってしまったためです。killerも同様の傾向があるので、そのあたりは実装によってはhashと同様特別扱いしたほうがいいかもしれません。今回の実験ではhistoryは間違いなく有効でした。

  • 確率に評価関数依存はどれくらいあるのか

これは実は少し前に、試しに棋理とボナンザの評価関数から求めた確率を交換した実験を行ったのですが、確か有意な結果は出なかったと思います(対局数も少なかったのでもう一度実験する価値はあると思います)。どちらもプロの棋譜からの学習で評価関数を生成しており、似たような評価関数になってしまっていることや、今回は用いた指し手の特徴が少なかったことなどが理由としては考えられます。駒の価値のみの評価関数とかもっと極端なもので実験してみるのがいいかもしれません。

  • 予測率が低い

激指のように膨大なパターンを用いていないせいかな、と思っていたのですが、それでももう少し高くてもいいとのこと。やはり学習部分は自分で書いていろいろいじってみる必要があるかもしれません…。

Bonanzaでも実現確率探索のほうが強そうではあります。ちょっと急いでとったデータなので、もう少し対局数も増やしてしっかり実験したいと思います。一応有意な結果ではあるのですが、ちょっと実験の条件を変えただけで有意じゃなくなるとかは結構ある気がするので。…っていうかよくよく考えてみると、有意水準5%って実は結構誤りの確率高いですよね。