Indexation simultanée

Deve_java · April 15, 2016, 2:53pm

Je souhaite indexer une grande quantité de documents HTML environ 4 million
le processus demande bcp de temps car je dois parser le contenu HTML sauver dans des fichier text puis lire le contenu du fichier. pour 4 million de documents ca risque de prendre du temps là je suis a deux semaines et je n'ai accomplis que le tiere..
quelle est la meilleurs facon d'accelerer le process d'indexation ? est ce que l'index elasticsearch supporte l'acces simultanée pour l'ecriture ?

dadoonet · April 15, 2016, 4:20pm

Le parsing se fait avant elasticsearch ou par elasticsearch?

quelle est la meilleurs facon d'accelerer le process d'indexation ?

Faudrait d'abord voir où est le goulot d'étranglement...

est ce que l'index elasticsearch supporte l'acces simultanée pour l'ecriture ?

Oui

Deve_java · April 15, 2016, 7:11pm

j'utilise Tika pour parser l'html et convertir en texte.. puis j'appel Elastisearch pour ecrire dans l'index
je pensait a utiliser plusieurs pogramme qui ecivent en meme temps en separant le dataset de documents en plusieurs lots et indexer en meme temps les groupes de documents

dadoonet · April 15, 2016, 7:23pm

Oui c'est très bien ça.

Deve_java · April 15, 2016, 7:28pm

je vous remercie Monsieur David pour votre reponse.

Topic		Replies	Views
Indexing multiple things at once. Possible? Elasticsearch	6	467	September 1, 2010
Improve indexing throughput Elasticsearch	14	2731	March 6, 2012
Performance issues using Elasticsearch as a time window storage Elasticsearch	5	440	September 17, 2013
Elasticsearch, quelques interrogations Discussions en français	3	1939	July 22, 2015
Stratégie de stockage Discussions en français	2	1156	July 24, 2015

Indexation simultanée

Related topics