昨日、LuceneのAnalyzerをいくつか触ってみたわけですが、そのうちのJananeseAnalyzer(形態素解析器Kuromojiを使っているやつ)のEXTENDEDモードの挙動が納得いかなくて、もう少し追ってみることにしました。 なにせ、ロンウィットのページ http://www.rondhuit.com/solr%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%AF%BE%E5%BF%9C.html によれば、 モード 説明 NORMAL 形態素解析による通常の単語分割を行う SEARCH 複合語で構成された単語を細かく分割する。例えば「関西国際空港」という固有名詞を「関西」「国際」「空港」に分割する。このため、「国際」や「空港」で「関西国際空港」をヒットすることができるようになる。 EXTENDED SEARCHモードの処理をしつつ、追加で、辞