Ingestion en double dans elastic search

Bonjour

J'utilise Logstsh et file beat pour l'ingestion d'un fichier csv dans Elastic j'ai remarquer que mes data double de volume dans elastic search pouvez vous m'expliquer pourquoi ??

bien cordialement

Ca depend du mapping. Mais en gros (c'est très schématique), chaque champ texte est mis 3 fois dans elasticsearch avec le mapping par défaut:

  • dans l'index inversé pour la recherche fulltext
  • sous forme orienté colonne pour les aggregations et les tris
  • sous forme brute dans _source
1 Like

ce mapping est il possible de changer pour avoir le meme nombre de ligne dans elastic?

Si tu n'as pas envie de chercher, tu peux désactiver toute l'indexation et que stocker dans _source. Mais ça n'a pas trop d'intérêt.
Si tu ne veux pas faire d'aggrégation, supprime le champ keyword du mapping.
Si tu ne veux pas récupérer le document source mais juste faire des aggrégations, disable le champ _source.

MAIS. A mon avis, il faut partir du besoin et laisser la technique de côté. Est-ce que tu veux être capable de rechercher dans tes lignes de CSV? Si oui, tu auras besoin d'indexer.
Est-ce que tu veux faire du calcul aggrégé ? Tu auras besoin d'un champ de type keyword. Ou tu peux activer fielddata mais ça te coutera plus cher en HEAP.
Veux-tu être capable de visualiser tout ton document dans les résultats ? Conserve _source alors.

Je te conseille toutefois de regarder champ par champ ce que tu veux faire pour optimiser le mapping en supprimant là où ce n'est pas nécessaire les champs keyword ou les champs text.
Voici par exemple un mapping que j'utilise pour injecter dans une démo 1 million de documents. Ca prend environ 180 Mo sur disque:

Est-ce que tu as un problème d'espace disque ?

je voulais visualiser tout mon document mais dans ma visualisation cependant j'ai des visualisation en double
par exemple si j'intègre un fichier de 14 000 ligne elastic il ingére 28000doc c'est normal? je souhaite conserver mes 14000 ligne dans elastic

Aussi à lire: https://www.elastic.co/guide/en/elasticsearch/reference/current/tune-for-disk-usage.html

C'est une autre question (il vaut mieux créer une autre discussion) à laquelle j'ai répondu ici:

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.