Использую версию ES 7.13 на Centos 7 + Ingest attachment плагин.
Вопрос такой: возможно ли используя данный плагин брать файлы с сетевой папки windows, вытягивать из них текст (файлы .doc, .docx и .pdf) и складывать в индекс Эластика?
При том, чтобы при появлении новых файлов в сетевой директории они автоматом залетали в мой индекс?
ingest attachment plugin не загружает сам файлы - он только вытаскивает из них текст для индексирования. Кто-то должен будет эту директорию регулярно сканировать, отслеживать изменения и эти файлы в elasticsearch посылать. Если хотите написать сами - то в документации есть пример того, как посылать файлы в elasticsearch. Если время дорого - то есть продукт, который этим и многим другим занимается - Elastic Enterprise Search | Elastic.
Хотелось бы просто использовать logstash, тк он позволяет настроить автоматизацию по расписанию.
На форуме нашёл тему, там человек похоже хочет того же, что и я. Это правильный путь?
Прошу ещё Вас подсказать, как настраивается лог ошибок в logstash на windows, тк пытаюсь применить конфиг, используемый в статье по ссылке и оно не пашет.
Не совсем. Там человек читает файлы построчно, то есть делает то, на что logstash был рассчитан, вы хотите их заглатывать целиком. Я думаю, у человека все бы заработало, если бы путь был указан верно (/ вместо \ и нормальный путь в sincedb_path), но для вас это только начало.
"Просто", к сожалению, не получится. logstash - это средство для сборки и обработки логов, а не индексации документов из сетевых папок. Можно перехитрить multiline codec и заставить его читать весь файл целиком, как тут показано, но это только начало. Во-первых, я не думаю, что кто-то logstash в таком режиме кто-то тестировал, так что возможны баги и проблемы с кодировками. Во-вторых, считывание измененных файлов на сетевых файловых системах - тоже задача забавная из-за кэширования на клиенте. Может заработать, может не заработать, а может сначала заработать а потом сломаться. Я в logstash - не эксперт, на Windows я давно не работал, поэтому сказать будет ли это работать и помочь вам с ошибками, скорее всего, не смогу, да и времени у меня столько нет, чтобы с этим разбираться.
Вот тут этот вопрос обсуждается -
Но, я бы начал с запуска из командной строки, пока вы конфигурацию отлаживаете. В этом режиме все ошибки сразу на экран выводятся - гораздо быстрее разбираться.
Спасибо огромное за подробнейший ответ и за Ваше время.
Вы пожалуй правы, что хотеть от logstash того, для чего он не предназначен, всё же неправильно.
Нашёл на форуме такую тему. Там человек хочет гнать в эластик pdf, и тот продукт, который ему посоветовали, кажись умеет это делать и притом слушает новые файлы. Сам правда не разбирался ещё, но хоть затеплилась надежда.
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.