Alternative River

Bonjour,

Je viens de découvrir Elasticsearch il y a quelques semaines et après quelques tests, je suis devenu totalement fan. Je compte d'ailleurs proposer cette technologie à la boite dans laquelle je fais actuellement un stage.
En effet, celle-ci étant de taille plutôt conséquente, la documentation pour les projets s'accumule très vite et il est parfois très difficile de retrouver ce que l'on cherche (je vous épargne la description de la hiérarchisation des répertoires)

Cependant je viens d'apprendre que les rivers vont être deprecated et je me demandais quelle était la meilleure alternative.

Mon besoin est simple et classique:
Dans un répertoire, je voudrais pouvoir indexer automatiquement la documentation (pdf, doc, ...) que j'ajoute et inversement, les désindexer quand je les supprime.

J'imagine qu'une routine qui regarderai les documents indexé et la documentation dans le répertoire, et qui ferait les modifications d'index n'est pas une très bonne idée :\

Merci

On me corrigera si je me trompe, mais je pense qu'il faut s'orienter vers logstash. La dernière fois que j'ai parlé de river, on m'a conseillé de les abandonner au bénéfice de logstash. https://www.elastic.co/products/logstash

Elasticsearch et logstash se couplent très bien :slight_smile: . Je n'ai pas vraiment expérimenté donc je ne peux pas détailler plus la marche à suivre.

Tu as raison mais logstash ne propose pas encore de solution pour remplacer FSRiver.
Il faut deux choses pour cela :

  • codec tika (en cours)
  • directory crawler input

Y a encore du boulot. :slight_smile:

Côté scrutmydocs, nous avançons (doucement) pour remplacer aussi FSRiver mais faut du temps libre pour ça et force est de constater que les journées sont bien remplies :slight_smile:

David

Merci pour vos réponses.
Tout cela m'embête beaucoup, je m’intéresse à cette technologie trop tôt ou trop tard.
Je vais suivre l'évolution de logstash et de scutmydocs de près.
Courage pour la suite de ce dernier !

j'arrive un peut tard dans la discussion, mais je pense que la routine peut etre une bonne idée ou non selon comment tu la met en execution, clairement si tu doit parcourir tous les dossiers pour savoir quelle fichier est indexe et quelle fichier ne l'est pas ce n'est pas une idée tres performant...

ce que j'ai fait ce que pour chaque dossier a l'interieur j'ai un dossier par defaut "defaut" ou arrive tous les fichiers et un dossier "processFiles" ou sont "move" tous les fichiers qui sont déjà indexe, de cette façon mon cron parcours uniquement les dossiers ou se trouve les fichiers non indexe et apres l'execution du bulk il deplace les fichiers dans l'autre dossier.
Exalmple: -dossier [visits] contient [default] & [processFiles]

pour l'instant j'ai trouve aucun problem, et le performance du move de fichiers sont excellents > with move there is no actual file data being moved, only the fat is updated.

j'utilise le plugin attachements + bulk API + script PHP

Please @ESUser10 stop answering in english in a french discussion