ElasticSearchにて索引化されたデータを出力したい

s-hatanaka · August 31, 2016, 2:16am

ngramやkuromoji pluginで形態素解析され、分割された各ワードがどのドキュメントを保持するのかといったデータが索引データとしてElasticsearch内部で保持しているものだと考えています。
その索引データをRESTAPI等で取得して、利用したいのですが、良い方法などありますでしょうか？
5系のElasticsearchを利用しており、それで確認できればと考えています。

Elasticsearchのプラグインやkibanaのプラグインを軽く確認してみましたが、なさそうな感じです。

johtani · August 31, 2016, 2:40am

取り出してどういったことをされるのでしょうか？

s-hatanaka · August 31, 2016, 2:47am

複合語辞書を効率的に作成したいと思っています。

kuromoji pluginで設定するuser dictionaryをうまく使うと、検索精度を向上させることができます。
複合語はそれなりに量があり、各単語に分割する作業を手動で実施しています。

それを手動で実施するのではなく、大量のデータをelasticsearchに投入し、単語を分割させてしまって、その結果をRESTAPI等で取得できるとuser dictionaryを効率的に作成できると考えています。

johtani · September 2, 2016, 3:03am

単語に分割したものを取得するのであれば、analyze APIを利用してはどうでしょうか？

s-hatanaka · September 2, 2016, 3:25am

ありがとうございました。

Topic		Replies	Views
インデックスされているコンテンツデータから単語を抽出したい。日本語による質問・議論はこちら	7	3610	April 11, 2018
Dec 14th, 2017: [JP][Elasticsearch] Analyze APIを使って、転置インデックスとテキスト解析を理解する Advent Calendar	0	3781	December 14, 2017
Automatic Keywords extraction in ElasticSearch Elasticsearch	14	6542	February 18, 2015
日本語全文検索について日本語による質問・議論はこちら	4	3651	December 26, 2016
Best way to proceed Elasticsearch	5	480	October 2, 2012

ElasticSearchにて索引化されたデータを出力したい

Related topics