ElasticSearchにて索引化されたデータを出力したい


(Sho Hatanaka) #1

ngramやkuromoji pluginで形態素解析され、分割された各ワードがどのドキュメントを保持するのかといったデータが索引データとしてElasticsearch内部で保持しているものだと考えています。
その索引データをRESTAPI等で取得して、利用したいのですが、良い方法などありますでしょうか?
5系のElasticsearchを利用しており、それで確認できればと考えています。

Elasticsearchのプラグインやkibanaのプラグインを軽く確認してみましたが、なさそうな感じです。


(Jun Ohtani) #2

取り出してどういったことをされるのでしょうか?


(Sho Hatanaka) #3

複合語辞書を効率的に作成したいと思っています。

kuromoji pluginで設定するuser dictionaryをうまく使うと、検索精度を向上させることができます。
複合語はそれなりに量があり、各単語に分割する作業を手動で実施しています。

それを手動で実施するのではなく、大量のデータをelasticsearchに投入し、単語を分割させてしまって、その結果をRESTAPI等で取得できるとuser dictionaryを効率的に作成できると考えています。


(Jun Ohtani) #4

単語に分割したものを取得するのであれば、analyze APIを利用してはどうでしょうか?


(Sho Hatanaka) #5

ありがとうございました。


(system) #6