クローラについて

norinori · October 25, 2018, 1:24am

定期的にファイルサーバー内のファイルの中身をElasticsearchでインデックス化したいのですが、インデックス化対象のファイルにはCADファイル(複数形式)があり、作り込みが必要と考えています。
機能拡張可能なクローラ？またはLogstashのプラグインを作成？など情報があれば教えて頂きたいと思います。

tsgkdt · October 26, 2018, 6:07am

CADファイル（複数形式）のところについて

既にご存知かもしれませんが、
ElasticsearchのIngestNodeでファイルからテキストを抽出するのには、Apache Tikaを使っています。

The ingest attachment plugin lets Elasticsearch extract file attachments in common formats (such as PPT, XLS, and PDF) by using the Apache text extraction library Tika.

また、ファイルサーバのクローラ実装の多くは、Apache TikaやPOIをご利用のようなので、まずIndex対象となっているCADファイルのそれぞれの形式が、Tikaで期待するテキストが抽出できるかを確認されるのが良いと思います。

そこで、Tikaじゃ対応していない形式だ！期待するテキストが取れてない！
となりましたら、他のテキスト抽出方法を検討することになるでしょう。
例えば、こういう製品なんかもあります。

これを、ファイルサーバのクローラの選定の前にまず確認しておいた方が良いかなと思いました。
参考になれば幸いです。

norinori · October 26, 2018, 8:38am

ありがとうございます。
Tikaでは期待した情報が取得できないものもあるようなので、まずはそこをどうするか検討したいと思います。

johtani · October 31, 2018, 9:09am

クローラーはこんなものもあります。参考になればと。

https://fscrawler.readthedocs.io/en/fscrawler-2.5/

残念ながらCADの形式がどんなもので、どのような検索をしたいのかがわかりませんが。。。
JSONやXMLにすればファイルをクロールするといったことが可能です。
もしくは、Tikaを使うパターンなども。

norinori · November 1, 2018, 5:02am

ありがとうございます。

事前にCADファイルから必要な情報をJSONやXMLで抜き出し、ファイルで保存。
クローラが拾ってインデックス化という事でしょうか。

事前に情報を抜き出せない場合、クロール時にクローラの機能を拡張して特定のファイルからは必要な情報を抜き出してインデックス化する事も可能でしょうか？

johtani · November 1, 2018, 5:28am

このクローラーが対応してるかどうかはドキュメントやソースを読んでみていただくのがいいかなぁと。

Topic		Replies	Views
DWG - ElasticSearch - Tika Elasticsearch ingest-pipeline	5	244	March 6, 2025
Indexing pdf, word, text, image files Elasticsearch	1	728	March 30, 2017
Document indexing Elasticsearch	9	553	May 15, 2012
How can I extract clear text of an attachment file (pdf) Elasticsearch	13	3414	March 3, 2015
Indexing office documents Elasticsearch	4	1891	June 10, 2011

クローラについて

Related topics