Je souhaite indexer une grande quantité de documents HTML environ 4 million
le processus demande bcp de temps car je dois parser le contenu HTML sauver dans des fichier text puis lire le contenu du fichier. pour 4 million de documents ca risque de prendre du temps là je suis a deux semaines et je n'ai accomplis que le tiere..
quelle est la meilleurs facon d'accelerer le process d'indexation ? est ce que l'index elasticsearch supporte l'acces simultanée pour l'ecriture ?
Le parsing se fait avant elasticsearch ou par elasticsearch?
quelle est la meilleurs facon d'accelerer le process d'indexation ?
Faudrait d'abord voir où est le goulot d'étranglement...
est ce que l'index elasticsearch supporte l'acces simultanée pour l'ecriture ?
Oui
j'utilise Tika pour parser l'html et convertir en texte.. puis j'appel Elastisearch pour ecrire dans l'index
je pensait a utiliser plusieurs pogramme qui ecivent en meme temps en separant le dataset de documents en plusieurs lots et indexer en meme temps les groupes de documents
Oui c'est très bien ça.
je vous remercie Monsieur David pour votre reponse.