Indexation des fichiers pdf word etc

josefboukersi · July 27, 2016, 3:00pm

Bonjour tout le monde,
j'ai quelques questions si vous pouvez m'aider svp. Actuellement j'essaye d'indexer des fichiers word pdf etc..(j'ai réussi à indexer quelques fichiers de petite taille, genre 1 mega, et ça en convertissant d'abord mes fichiers en base64).
Mes questions sont :
1-Est-il possible d'indexer plusieurs fichiers à la fois avec ES directement en utilisant le plugin mapper-attachment? Si oui, comment ?
2-Comment indexer des fichiers volumineux ?(j'ai essayé mais l'interface head plante)
3-Logstash nous permet-il d'indexer ce genre de document ?

Ps : j'utilise ES 2.3.2, logstash 2.3

Merci d'avance

dadoonet · July 27, 2016, 3:55pm

Oui. Deux réponses:

Tout d'abord utilise le BULK API. Pour envoyer une seule requête contenant plein d'opérations d'indexation. Si ton besoin est de retrouver un document et non un ensemble de documents, c'est ce qu'il faut faire.
Sinon si tu veux mélanger dans le même documents plusieurs PDF, créé un champ attachment par document, genre:

{
  "file1": "BASE64",
  "file2": "BASE64", ...
}

HEAD est fait pour jouer. Pas pour de la PROD.
Là, ça dépend. Tu peux regarder le project FSCrawler. (Disclaimer: j'en suis l'auteur)

Non.
J'avais commencé à bosser sur un CODEC mais avec l'arrivée de NodeIngest et du plugin ingest-attachment, y'a plus besoin.

Pendant que j'y suis, mapper-attachments est déprécié pour ce plugin ingest.

josefboukersi · July 28, 2016, 7:22am

slt dadonnet,
Je te remercie beaucoup pour ton aide.
J'ai un autre sujet sur lequel je travaille actuellement, c'est l'indexation des maquettes 3D dont l'extension des fichiers est .rvt, je me suis dit que je vais les convertir en base64 puis les indexer comme les autres fichiers .pdf, .doc etc...
Penses-tu que je suis sur la bonne voie?
As-tu une idée de comment on peut indexer ce genre de fichiers ?

Je te remercie encore une fois.

dadoonet · July 28, 2016, 7:40am

Je ne sais pas (en fait je ne pense pas) que Tika sache traiter ces fichiers.

josefboukersi · July 28, 2016, 7:47am

Oui effectivement, d'après le site officiel, Tika ne traite pas ce genre de fichier. Peut-être dans les prochaines versions!!!
Je te remercie @dadoonet

josefboukersi · July 28, 2016, 2:31pm

slt @dadoonet

Lors de la création d'un nouveau job avec la commande suivante :
bin/fscrawler job_es
j'obtiens l erreur : Exception in thread "main" java.nio.file.NoSuchFileException: C:\Users\y.b\.fscrawler\job_es\_settings.json

tu as une idée pour me débloquer stp?
Merci

PS : FSCrawler 2.1 ----- ES 2.3.2

dadoonet · July 29, 2016, 1:36am

Argh. Faut que je teste sous Windows...

josefboukersi · August 11, 2016, 8:55am

slt dadonnet,
tu as pu tester le plugin FS crawler sous Windows ?

dadoonet · August 11, 2016, 10:18am

En fait c'est pas Windows.

C'est ça : https://github.com/dadoonet/fscrawler/issues/208

Topic		Replies	Views
Indexing files from filesystem Elasticsearch	6	1788	July 6, 2017
ElasticSearch Indexing question Elasticsearch	22	3844	July 5, 2017
Document indexing Elasticsearch	10	515	July 6, 2017
Index binary files (PDF, ...) Elasticsearch	20	3905	July 5, 2017
How to index Office files? .txt and .pdf are working Elasticsearch	7	2793	July 6, 2017

Indexation des fichiers pdf word etc

Related topics