j'utilise Tika pour parser l'html et convertir en texte.. puis j'appel Elastisearch pour ecrire dans l'index
je pensait a utiliser plusieurs pogramme qui ecivent en meme temps en separant le dataset de documents en plusieurs lots et indexer en meme temps les groupes de documents