検索エンジン基盤

京大の黒橋研究室で作っているらしい検索エンジン基盤 TSUBAKIというものを知る。Web API もあるらしい。(使っている人の話ではちょっと使いにくいそうだけど)

係り受けも考慮して検索結果に反映させてくれているらしいのだけど、見方がよく分からない……。係り受けの検索結果だけもらえると嬉しい(他にも係り受けだけほしい人はけっこういそう)のだけど、どうも and 検索と結果が混ざっているような感じである。異表記でも検索対象に加えてくれているのは善し悪しかな。

しかし形態素解析間違えると厳しい。品詞間違えるのも困るけど、いちばん痛いのは単語区切りを間違えて変な文字列を切り出してくること。Web 文書だとしょっちゅう間違えるので、なんとかなりませんかなー……。