Indexation des fichiers pdf word etc


#1

Bonjour tout le monde,
j'ai quelques questions si vous pouvez m'aider svp. Actuellement j'essaye d'indexer des fichiers word pdf etc..(j'ai réussi à indexer quelques fichiers de petite taille, genre 1 mega, et ça en convertissant d'abord mes fichiers en base64).
Mes questions sont :
1-Est-il possible d'indexer plusieurs fichiers à la fois avec ES directement en utilisant le plugin mapper-attachment? Si oui, comment ?
2-Comment indexer des fichiers volumineux ?(j'ai essayé mais l'interface head plante)
3-Logstash nous permet-il d'indexer ce genre de document ?

Ps : j'utilise ES 2.3.2, logstash 2.3

Merci d'avance


(David Pilato) #2

Oui. Deux réponses:

  • Tout d'abord utilise le BULK API. Pour envoyer une seule requête contenant plein d'opérations d'indexation. Si ton besoin est de retrouver un document et non un ensemble de documents, c'est ce qu'il faut faire.
  • Sinon si tu veux mélanger dans le même documents plusieurs PDF, créé un champ attachment par document, genre:
{
  "file1": "BASE64",
  "file2": "BASE64", ...
}

HEAD est fait pour jouer. Pas pour de la PROD.
Là, ça dépend. Tu peux regarder le project FSCrawler. (Disclaimer: j'en suis l'auteur)

Non.
J'avais commencé à bosser sur un CODEC mais avec l'arrivée de NodeIngest et du plugin ingest-attachment, y'a plus besoin.

Pendant que j'y suis, mapper-attachments est déprécié pour ce plugin ingest.


#3

slt dadonnet,
Je te remercie beaucoup pour ton aide.
J'ai un autre sujet sur lequel je travaille actuellement, c'est l'indexation des maquettes 3D dont l'extension des fichiers est .rvt, je me suis dit que je vais les convertir en base64 puis les indexer comme les autres fichiers .pdf, .doc etc...
Penses-tu que je suis sur la bonne voie?
As-tu une idée de comment on peut indexer ce genre de fichiers ?

Je te remercie encore une fois.


(David Pilato) #4

Je ne sais pas (en fait je ne pense pas) que Tika sache traiter ces fichiers.


#5

Oui effectivement, d'après le site officiel, Tika ne traite pas ce genre de fichier. Peut-être dans les prochaines versions!!!
Je te remercie @dadoonet


#6

slt @dadoonet

Lors de la création d'un nouveau job avec la commande suivante :
bin/fscrawler job_es
j'obtiens l erreur : Exception in thread "main" java.nio.file.NoSuchFileException: C:\Users\y.b\.fscrawler\job_es\_settings.json

tu as une idée pour me débloquer stp?
Merci

PS : FSCrawler 2.1 ----- ES 2.3.2

  `

(David Pilato) #7

Argh. Faut que je teste sous Windows... :slight_smile:


#8

slt dadonnet,
tu as pu tester le plugin FS crawler sous Windows ?


(David Pilato) #10

En fait c'est pas Windows.

C'est ça : https://github.com/dadoonet/fscrawler/issues/208


(system) #11