モンテカルロ - 武蔵野日記

昨日のエントリに関係して、IHARA Note のモンテカルロの失敗談。

囲碁でモンテカルロがうまく行ったのは、ランダムに打つという操作で終局するというのもあるけど、勝ち幅(勝つときの自分の陣地の大きさ)ではなく勝率を最大化するように最適化をかけるようにしたら強くなった、という話を聞くと、評価関数をどうこうするよりどうにかして手の善し悪しを勝ち負けに関連づけるかが重要なのかな? と思う。

実際、(だいぶ前に聞いた話だが)棋譜コーパスの使い方は、実際の指し手に関して最終的に手番側が勝てば正例、負ければ負例、というように使っているそうで、そうしたがために(全駒して勝とうとするのではなく)敵玉に迫るような(人間らしい)指し手をするような学習ができるようになった、ということなのかなと。(最初聞いたときは「最後に勝ったか負けたかで評価するってなんて粗い近似なんだろう」とびっくりしたが)

と思ったが、モンテカルロ将棋の試みもいろいろある(というかすでにかなり試されている)ようで、

モンテカルロアルゴリズムの性質からして、終盤の詰みが生じる直前の局面に強いということは充分に考えられるので、今後の研究次第ではBonanzaのように新たな強さを備えたコンピュータ将棋が生まれるかもしれませんね。

というわけで、それまでのアルゴリズムと異なる性格のプログラムが作れそうということかな?