Bonjour
J'utilise Logstsh et file beat pour l'ingestion d'un fichier csv dans Elastic j'ai remarquer que mes data double de volume dans elastic search pouvez vous m'expliquer pourquoi ??
bien cordialement
Bonjour
J'utilise Logstsh et file beat pour l'ingestion d'un fichier csv dans Elastic j'ai remarquer que mes data double de volume dans elastic search pouvez vous m'expliquer pourquoi ??
bien cordialement
Ca depend du mapping. Mais en gros (c'est très schématique), chaque champ texte est mis 3 fois dans elasticsearch avec le mapping par défaut:
_source
ce mapping est il possible de changer pour avoir le meme nombre de ligne dans elastic?
Si tu n'as pas envie de chercher, tu peux désactiver toute l'indexation et que stocker dans _source
. Mais ça n'a pas trop d'intérêt.
Si tu ne veux pas faire d'aggrégation, supprime le champ keyword
du mapping.
Si tu ne veux pas récupérer le document source mais juste faire des aggrégations, disable le champ _source
.
MAIS. A mon avis, il faut partir du besoin et laisser la technique de côté. Est-ce que tu veux être capable de rechercher dans tes lignes de CSV? Si oui, tu auras besoin d'indexer.
Est-ce que tu veux faire du calcul aggrégé ? Tu auras besoin d'un champ de type keyword. Ou tu peux activer fielddata
mais ça te coutera plus cher en HEAP.
Veux-tu être capable de visualiser tout ton document dans les résultats ? Conserve _source
alors.
Je te conseille toutefois de regarder champ par champ ce que tu veux faire pour optimiser le mapping en supprimant là où ce n'est pas nécessaire les champs keyword
ou les champs text
.
Voici par exemple un mapping que j'utilise pour injecter dans une démo 1 million de documents. Ca prend environ 180 Mo sur disque:
Est-ce que tu as un problème d'espace disque ?
je voulais visualiser tout mon document mais dans ma visualisation cependant j'ai des visualisation en double
par exemple si j'intègre un fichier de 14 000 ligne elastic il ingére 28000doc c'est normal? je souhaite conserver mes 14000 ligne dans elastic
Aussi à lire: https://www.elastic.co/guide/en/elasticsearch/reference/current/tune-for-disk-usage.html
C'est une autre question (il vaut mieux créer une autre discussion) à laquelle j'ai répondu ici:
This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.
© 2020. All Rights Reserved - Elasticsearch
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant logo are trademarks of the Apache Software Foundation in the United States and/or other countries.