Загрузка файлов с помощью Ingest attachment plugin

Доброго времени суток.

Использую версию ES 7.13 на Centos 7 + Ingest attachment плагин.

Вопрос такой: возможно ли используя данный плагин брать файлы с сетевой папки windows, вытягивать из них текст (файлы .doc, .docx и .pdf) и складывать в индекс Эластика?

При том, чтобы при появлении новых файлов в сетевой директории они автоматом залетали в мой индекс?

Спасибо.

ingest attachment plugin не загружает сам файлы - он только вытаскивает из них текст для индексирования. Кто-то должен будет эту директорию регулярно сканировать, отслеживать изменения и эти файлы в elasticsearch посылать. Если хотите написать сами - то в документации есть пример того, как посылать файлы в elasticsearch. Если время дорого - то есть продукт, который этим и многим другим занимается - Elastic Enterprise Search | Elastic.

Спасибо за ответ. Время пока терпит.

Вы говорите, что в документации есть пример, как посылать файлы в ES, можно пожалуйста по конкретнее? Вы имеете ввиду logstash? Он такое умеет?

Спасибо за информацию. А logstash всё-таки стоит рассматривать для моей задачи?

Logstash можно заставить это делать, но он больше предназначен для чтения файлов по строкам, а не целиком - так что придется с ним повоевать немного.

Как именно повоевать?

Хотелось бы просто использовать logstash, тк он позволяет настроить автоматизацию по расписанию.

На форуме нашёл тему, там человек похоже хочет того же, что и я. Это правильный путь?

Прошу ещё Вас подсказать, как настраивается лог ошибок в logstash на windows, тк пытаюсь применить конфиг, используемый в статье по ссылке и оно не пашет.

Не совсем. Там человек читает файлы построчно, то есть делает то, на что logstash был рассчитан, вы хотите их заглатывать целиком. Я думаю, у человека все бы заработало, если бы путь был указан верно (/ вместо \ и нормальный путь в sincedb_path), но для вас это только начало.

"Просто", к сожалению, не получится. logstash - это средство для сборки и обработки логов, а не индексации документов из сетевых папок. Можно перехитрить multiline codec и заставить его читать весь файл целиком, как тут показано, но это только начало. Во-первых, я не думаю, что кто-то logstash в таком режиме кто-то тестировал, так что возможны баги и проблемы с кодировками. Во-вторых, считывание измененных файлов на сетевых файловых системах - тоже задача забавная из-за кэширования на клиенте. Может заработать, может не заработать, а может сначала заработать а потом сломаться. Я в logstash - не эксперт, на Windows я давно не работал, поэтому сказать будет ли это работать и помочь вам с ошибками, скорее всего, не смогу, да и времени у меня столько нет, чтобы с этим разбираться.

Вот тут этот вопрос обсуждается -

Но, я бы начал с запуска из командной строки, пока вы конфигурацию отлаживаете. В этом режиме все ошибки сразу на экран выводятся - гораздо быстрее разбираться.

Спасибо огромное за подробнейший ответ и за Ваше время.

Вы пожалуй правы, что хотеть от logstash того, для чего он не предназначен, всё же неправильно.

Нашёл на форуме такую тему. Там человек хочет гнать в эластик pdf, и тот продукт, который ему посоветовали, кажись умеет это делать и притом слушает новые файлы. Сам правда не разбирался ещё, но хоть затеплилась надежда.

@dadoonet обычно дело говорит :slightly_smiling_face: ему можно доверять.

1 Like

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.