Kuromojiの区切り文字について

ufuruya · August 2, 2021, 3:50am

kuromoji_tokenizer を利用して、形態素解析を行っています。

「山田花子」で検索すると、「山田」・「花子」で検索してくれます。
「山田、花子」、「山田・花子」、「山田-花子」も同様です。

区切り文字は、スペースのみとし、他の記号はそのまま文字として扱いたいですが、可能でしょうか？
「山田花子」->「山田」・「花子」で検索
「山田、花子」->「山田、花子」で検索
「山田・花子」->「山田・花子」で検索

miki · August 4, 2021, 1:43pm

Whitespace tokenizerを使うのはどうですか？

ufuruya · August 5, 2021, 5:41am

@miki
コメントありがとうございます。
Whitespace tokenizer を使うと、Kuromoji tokenizer が使えないと思っています。
（tokenizerは１つしか指定できない。）

miki · August 5, 2021, 7:09am

Kuromoji tokenizerが単語を分割するルールに対して、記号に関しては分割をしないようにしたいということですか？
もう少し、具体的な例を教えてください。

ufuruya · August 5, 2021, 8:47pm

Kuromoji tokenizerが単語を分割するルールに対して、記号に関しては分割をしないようにしたいということですか？

おっしゃる通りです。
分割をスペースのみにしたいです。

「新宿居酒屋」は、「新宿」と「居酒屋」で検索。
「新宿、居酒屋」は、そのまま「新宿、居酒屋」で検索。
としたいです。

miki · August 6, 2021, 2:01am

Pattern replace character filterなどを利用して、分割させたくない記号を前もって削除するのはどうでしょうか？
少なくとも、記号が原因で分割されるという要因は排除できます。

ufuruya · August 6, 2021, 4:31am

@miki
ありがとうございます。
filterで削るのが良さそうです。参考にさせていただきます。

system · September 3, 2021, 4:32am

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Protect some words when tokenizing Elasticsearch	8	2111	July 6, 2017
Kuromoji: Tokenization of ゴロンと is Unexpected (incorrect?) Elasticsearch	3	649	March 20, 2018
Special Character Search with kuromoji analyzer Elasticsearch	1	466	August 31, 2018
Kuromoji tokenizers とURLリンク分解日本語による質問・議論はこちら	2	775	November 19, 2018
Kuromoji_readingform の意図しない出力について日本語による質問・議論はこちら	3	4019	July 6, 2017