kuromoji_tokenizer を利用して、形態素解析を行っています。
「山田 花子」で検索すると、「山田」・「花子」で検索してくれます。
「山田、花子」、「山田・花子」、「山田-花子」も同様です。
区切り文字は、スペースのみとし、他の記号はそのまま文字として扱いたいですが、可能でしょうか?
「山田 花子」->「山田」・「花子」で検索
「山田、花子」->「山田、花子」で検索
「山田・花子」->「山田・花子」で検索
kuromoji_tokenizer を利用して、形態素解析を行っています。
「山田 花子」で検索すると、「山田」・「花子」で検索してくれます。
「山田、花子」、「山田・花子」、「山田-花子」も同様です。
区切り文字は、スペースのみとし、他の記号はそのまま文字として扱いたいですが、可能でしょうか?
「山田 花子」->「山田」・「花子」で検索
「山田、花子」->「山田、花子」で検索
「山田・花子」->「山田・花子」で検索
Whitespace tokenizerを使うのはどうですか?
@miki
コメントありがとうございます。
Whitespace tokenizer を使うと、Kuromoji tokenizer が使えないと思っています。
(tokenizerは1つしか指定できない。)
Kuromoji tokenizerが単語を分割するルールに対して、記号に関しては分割をしないようにしたいということですか?
もう少し、具体的な例を教えてください。
Kuromoji tokenizerが単語を分割するルールに対して、記号に関しては分割をしないようにしたいということですか?
おっしゃる通りです。
分割をスペースのみにしたいです。
「新宿 居酒屋」は、「新宿」と「居酒屋」で検索。
「新宿、居酒屋」は、そのまま「新宿、居酒屋」で検索。
としたいです。
Pattern replace character filterなどを利用して、分割させたくない記号を前もって削除するのはどうでしょうか?
少なくとも、記号が原因で分割されるという要因は排除できます。
@miki
ありがとうございます。
filterで削るのが良さそうです。参考にさせていただきます。
This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.
© 2020. All Rights Reserved - Elasticsearch
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant logo are trademarks of the Apache Software Foundation in the United States and/or other countries.