Kuromojiの区切り文字について

kuromoji_tokenizer を利用して、形態素解析を行っています。

「山田 花子」で検索すると、「山田」・「花子」で検索してくれます。
「山田、花子」、「山田・花子」、「山田-花子」も同様です。

区切り文字は、スペースのみとし、他の記号はそのまま文字として扱いたいですが、可能でしょうか?
「山田 花子」->「山田」・「花子」で検索
「山田、花子」->「山田、花子」で検索
「山田・花子」->「山田・花子」で検索

Whitespace tokenizerを使うのはどうですか?

@miki
コメントありがとうございます。
Whitespace tokenizer を使うと、Kuromoji tokenizer が使えないと思っています。
(tokenizerは1つしか指定できない。)

Kuromoji tokenizerが単語を分割するルールに対して、記号に関しては分割をしないようにしたいということですか?
もう少し、具体的な例を教えてください。

@miki

Kuromoji tokenizerが単語を分割するルールに対して、記号に関しては分割をしないようにしたいということですか?

おっしゃる通りです。
分割をスペースのみにしたいです。

「新宿 居酒屋」は、「新宿」と「居酒屋」で検索。
「新宿、居酒屋」は、そのまま「新宿、居酒屋」で検索。
としたいです。

Pattern replace character filterなどを利用して、分割させたくない記号を前もって削除するのはどうでしょうか?
少なくとも、記号が原因で分割されるという要因は排除できます。

@miki
ありがとうございます。
filterで削るのが良さそうです。参考にさせていただきます。

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.