Bonanzaを読んでいます

fruitとcraftyの間くらいの読みやすさかな?
探索部分と学習部分は一通り読んだと思います。今のプログラムはbitboardではないので,そのあたりの処理は全く読んでいません。評価関数の項目はかなり少ないですね。pc_on_sqというのがなんの評価なのかパッと読んだだけではよく分からなかったのですが。とりあえず,いろいろ修正・効率化ができそうなので,学習をもう一度やり直してみたいと思います。

ペナルティについて

うーん,よく理解できていません。
http://d.hatena.ne.jp/ak11/20090131
このあたりでも詳しく述べられているんですが,論文とは結構違ってますね。

ペナルティの強さは、どうも相当強い気がします。

とあるのですが,ペナルティの値が固定で 0.5/FV_SCALE (=0.015625) ってことは,ほとんどないのと同じような気がするんだけどなぁ。同じやり方で持ち駒の枚数の価値を学習させてみると結構大きい値になるみたいだし。
ソースではわかりやすさ重視で簡略化しているのか,それとも論文よりソースのやり方のほうがいい結果が得られたのか,どっちなんでしょうね。