ElasticsearchにWebページをクローリングしたい

社内のファイル検索にElasticsearchを利用させて頂いています。
社内のWebサイト(インターネットからは閲覧不可)情報も含めて横断検索できるようにするとより便利になるかなと考えておりまして、気軽にクローリングして、検索できるかどうかを試したいと思っています。
認証必要なページは不必要なページがありますが、まずは不必要なページから試したいと思っています。

ElasticStackのBeatsやLogstashを利用してWebサイトの情報をクローリングできるとよいのかなと思い、下記を確認すると、Webサイトのクローラに利用できそうなものは軽く閲覧した限りでは、なさそうにもみえました。
オススメな方法などあれば情報連携頂きたいです。。。!
(BeatsやLogstashを利用しない方法でも構いません。それらを利用する方法だと、簡単に試せるのでうれしいですが)

□少し確認してみた情報
https://www.elastic.co/guide/en/logstash/current/input-plugins.html →プラグインは簡単に確認してみました。
https://www.elastic.co/guide/en/beats/libbeat/7.7/beats-reference.html →各種beatsやmodulesは簡単に確認してみました

Webサイトのクローリングというようとの製品だと、まずこちらが思い浮かぶところです。

なるべく手を動かさずに・・・という場合はElasticsearchを使っているFessもアリかと思います。


クローラーがついてます。

最近ではクローラーのライブラリがあるので、それを使った自作プログラムとIngestNodeと組み合わせも考えられます。(私はCrawler4jで試してました)
差分管理やリンクの深さなどの制約がない場合には、簡易に試せる方法かもしれません。(手を動かす必要はありますが。。。)

ご参考になれば。

@tsgkdt ありがとうございます。参考になりました。
BeatsやLogstashに機能があれば、ElasticStackの構想にも合うのかなと思っているのですが、今はなさそうですね。ご提示頂いたような、別のサービスやソフトウェアを適用する方向性で進めようと思います。

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.