Ingestion en double dans elastic search

Bonjour

J'utilise Logstsh et file beat pour l'ingestion d'un fichier csv dans Elastic j'ai remarquer que mes data double de volume dans elastic search pouvez vous m'expliquer pourquoi ??

bien cordialement

Ca depend du mapping. Mais en gros (c'est trÚs schématique), chaque champ texte est mis 3 fois dans elasticsearch avec le mapping par défaut:

  • dans l'index inversĂ© pour la recherche fulltext
  • sous forme orientĂ© colonne pour les aggregations et les tris
  • sous forme brute dans _source
1 Like

ce mapping est il possible de changer pour avoir le meme nombre de ligne dans elastic?

Si tu n'as pas envie de chercher, tu peux dĂ©sactiver toute l'indexation et que stocker dans _source. Mais ça n'a pas trop d'intĂ©rĂȘt.
Si tu ne veux pas faire d'aggrégation, supprime le champ keyword du mapping.
Si tu ne veux pas récupérer le document source mais juste faire des aggrégations, disable le champ _source.

MAIS. A mon avis, il faut partir du besoin et laisser la technique de cĂŽtĂ©. Est-ce que tu veux ĂȘtre capable de rechercher dans tes lignes de CSV? Si oui, tu auras besoin d'indexer.
Est-ce que tu veux faire du calcul aggrégé ? Tu auras besoin d'un champ de type keyword. Ou tu peux activer fielddata mais ça te coutera plus cher en HEAP.
Veux-tu ĂȘtre capable de visualiser tout ton document dans les rĂ©sultats ? Conserve _source alors.

Je te conseille toutefois de regarder champ par champ ce que tu veux faire pour optimiser le mapping en supprimant lĂ  oĂč ce n'est pas nĂ©cessaire les champs keyword ou les champs text.
Voici par exemple un mapping que j'utilise pour injecter dans une démo 1 million de documents. Ca prend environ 180 Mo sur disque:

Est-ce que tu as un problĂšme d'espace disque ?

je voulais visualiser tout mon document mais dans ma visualisation cependant j'ai des visualisation en double
par exemple si j'intÚgre un fichier de 14 000 ligne elastic il ingére 28000doc c'est normal? je souhaite conserver mes 14000 ligne dans elastic

Aussi Ă  lire: https://www.elastic.co/guide/en/elasticsearch/reference/current/tune-for-disk-usage.html

C'est une autre question (il vaut mieux créer une autre discussion) à laquelle j'ai répondu ici:

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.