Bonjour tout le monde,
j'ai quelques questions si vous pouvez m'aider svp. Actuellement j'essaye d'indexer des fichiers word pdf etc..(j'ai réussi à indexer quelques fichiers de petite taille, genre 1 mega, et ça en convertissant d'abord mes fichiers en base64).
Mes questions sont :
1-Est-il possible d'indexer plusieurs fichiers à la fois avec ES directement en utilisant le plugin mapper-attachment? Si oui, comment ?
2-Comment indexer des fichiers volumineux ?(j'ai essayé mais l'interface head plante)
3-Logstash nous permet-il d'indexer ce genre de document ?
Tout d'abord utilise le BULK API. Pour envoyer une seule requête contenant plein d'opérations d'indexation. Si ton besoin est de retrouver un document et non un ensemble de documents, c'est ce qu'il faut faire.
Sinon si tu veux mélanger dans le même documents plusieurs PDF, créé un champ attachment par document, genre:
{
"file1": "BASE64",
"file2": "BASE64", ...
}
HEAD est fait pour jouer. Pas pour de la PROD.
Là, ça dépend. Tu peux regarder le project FSCrawler. (Disclaimer: j'en suis l'auteur)
Non.
J'avais commencé à bosser sur un CODEC mais avec l'arrivée de NodeIngest et du plugin ingest-attachment, y'a plus besoin.
Pendant que j'y suis, mapper-attachments est déprécié pour ce plugin ingest.
slt dadonnet,
Je te remercie beaucoup pour ton aide.
J'ai un autre sujet sur lequel je travaille actuellement, c'est l'indexation des maquettes 3D dont l'extension des fichiers est .rvt, je me suis dit que je vais les convertir en base64 puis les indexer comme les autres fichiers .pdf, .doc etc...
Penses-tu que je suis sur la bonne voie?
As-tu une idée de comment on peut indexer ce genre de fichiers ?
Oui effectivement, d'après le site officiel, Tika ne traite pas ce genre de fichier. Peut-être dans les prochaines versions!!!
Je te remercie @dadoonet
Lors de la création d'un nouveau job avec la commande suivante : bin/fscrawler job_es
j'obtiens l erreur : Exception in thread "main" java.nio.file.NoSuchFileException: C:\Users\y.b\.fscrawler\job_es\_settings.json
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.