Indexation simultanée


(Deve java) #1

Je souhaite indexer une grande quantité de documents HTML environ 4 million
le processus demande bcp de temps car je dois parser le contenu HTML sauver dans des fichier text puis lire le contenu du fichier. pour 4 million de documents ca risque de prendre du temps là je suis a deux semaines et je n'ai accomplis que le tiere..
quelle est la meilleurs facon d'accelerer le process d'indexation ? est ce que l'index elasticsearch supporte l'acces simultanée pour l'ecriture ?


(David Pilato) #2

Le parsing se fait avant elasticsearch ou par elasticsearch?

quelle est la meilleurs facon d'accelerer le process d'indexation ?

Faudrait d'abord voir où est le goulot d'étranglement...

est ce que l'index elasticsearch supporte l'acces simultanée pour l'ecriture ?

Oui


(Deve java) #3

j'utilise Tika pour parser l'html et convertir en texte.. puis j'appel Elastisearch pour ecrire dans l'index
je pensait a utiliser plusieurs pogramme qui ecivent en meme temps en separant le dataset de documents en plusieurs lots et indexer en meme temps les groupes de documents


(David Pilato) #4

Oui c'est très bien ça.


(Deve java) #5

je vous remercie Monsieur David pour votre reponse.


(system) #6