ngramやkuromoji pluginで形態素解析され、分割された各ワードがどのドキュメントを保持するのかといったデータが索引データとしてElasticsearch内部で保持しているものだと考えています。 その索引データをRESTAPI等で取得して、利用したいのですが、良い方法などありますでしょうか? 5系のElasticsearchを利用しており、それで確認できればと考えています。
Elasticsearchのプラグインやkibanaのプラグインを軽く確認してみましたが、なさそうな感じです。
取り出してどういったことをされるのでしょうか?
複合語辞書を効率的に作成したいと思っています。
kuromoji pluginで設定するuser dictionaryをうまく使うと、検索精度を向上させることができます。 複合語はそれなりに量があり、各単語に分割する作業を手動で実施しています。
それを手動で実施するのではなく、大量のデータをelasticsearchに投入し、単語を分割させてしまって、その結果をRESTAPI等で取得できるとuser dictionaryを効率的に作成できると考えています。
単語に分割したものを取得するのであれば、analyze APIを利用してはどうでしょうか?
ありがとうございました。
© 2020. All Rights Reserved - Elasticsearch
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant logo are trademarks of the Apache Software Foundation in the United States and/or other countries.