ElasticsearchにWebページをクローリングしたい

s-hatanaka · May 20, 2020, 10:56am

社内のファイル検索にElasticsearchを利用させて頂いています。
社内のWebサイト（インターネットからは閲覧不可）情報も含めて横断検索できるようにするとより便利になるかなと考えておりまして、気軽にクローリングして、検索できるかどうかを試したいと思っています。
認証必要なページは不必要なページがありますが、まずは不必要なページから試したいと思っています。

ElasticStackのBeatsやLogstashを利用してWebサイトの情報をクローリングできるとよいのかなと思い、下記を確認すると、Webサイトのクローラに利用できそうなものは軽く閲覧した限りでは、なさそうにもみえました。
オススメな方法などあれば情報連携頂きたいです。。。！
（BeatsやLogstashを利用しない方法でも構いません。それらを利用する方法だと、簡単に試せるのでうれしいですが）

□少し確認してみた情報
https://www.elastic.co/guide/en/logstash/current/input-plugins.html →プラグインは簡単に確認してみました。
https://www.elastic.co/guide/en/beats/libbeat/7.7/beats-reference.html →各種beatsやmodulesは簡単に確認してみました

tsgkdt · May 20, 2020, 12:39pm

Webサイトのクローリングというようとの製品だと、まずこちらが思い浮かぶところです。

なるべく手を動かさずに・・・という場合はElasticsearchを使っているFessもアリかと思います。

クローラーがついてます。

最近ではクローラーのライブラリがあるので、それを使った自作プログラムとIngestNodeと組み合わせも考えられます。（私はCrawler4jで試してました）
差分管理やリンクの深さなどの制約がない場合には、簡易に試せる方法かもしれません。（手を動かす必要はありますが。。。）

ご参考になれば。

s-hatanaka · June 5, 2020, 1:45am

@tsgkdt ありがとうございます。参考になりました。
BeatsやLogstashに機能があれば、ElasticStackの構想にも合うのかなと思っているのですが、今はなさそうですね。ご提示頂いたような、別のサービスやソフトウェアを適用する方向性で進めようと思います。

Topic		Replies	Views
Best Web Crawler For Elastisearch Elasticsearch	1	4751	July 20, 2018
Web crawler for elastic leatest versions Elasticsearch	3	5840	December 20, 2017
Suggestions for places to start for a crawler? Elasticsearch	6	1586	November 16, 2011
How to crawl the weburl using ElastiSearch? Elasticsearch	1	485	February 17, 2018
Web Crawler input for logstash Logstash	2	4936	August 28, 2015

ElasticsearchにWebページをクローリングしたい

Related topics