Ingestion en double dans elastic search

Youssef_SBAI · April 30, 2020, 7:05am

Bonjour

J'utilise Logstsh et file beat pour l'ingestion d'un fichier csv dans Elastic j'ai remarquer que mes data double de volume dans elastic search pouvez vous m'expliquer pourquoi ??

bien cordialement

dadoonet · April 30, 2020, 7:25am

Ca depend du mapping. Mais en gros (c'est très schématique), chaque champ texte est mis 3 fois dans elasticsearch avec le mapping par défaut:

dans l'index inversé pour la recherche fulltext
sous forme orienté colonne pour les aggregations et les tris
sous forme brute dans _source

Youssef_SBAI · April 30, 2020, 7:40am

ce mapping est il possible de changer pour avoir le meme nombre de ligne dans elastic?

dadoonet · April 30, 2020, 8:16am

Si tu n'as pas envie de chercher, tu peux désactiver toute l'indexation et que stocker dans _source. Mais ça n'a pas trop d'intérêt.
Si tu ne veux pas faire d'aggrégation, supprime le champ keyword du mapping.
Si tu ne veux pas récupérer le document source mais juste faire des aggrégations, disable le champ _source.

MAIS. A mon avis, il faut partir du besoin et laisser la technique de côté. Est-ce que tu veux être capable de rechercher dans tes lignes de CSV? Si oui, tu auras besoin d'indexer.
Est-ce que tu veux faire du calcul aggrégé ? Tu auras besoin d'un champ de type keyword. Ou tu peux activer fielddata mais ça te coutera plus cher en HEAP.
Veux-tu être capable de visualiser tout ton document dans les résultats ? Conserve _source alors.

Je te conseille toutefois de regarder champ par champ ce que tu veux faire pour optimiser le mapping en supprimant là où ce n'est pas nécessaire les champs keyword ou les champs text.
Voici par exemple un mapping que j'utilise pour injecter dans une démo 1 million de documents. Ca prend environ 180 Mo sur disque:

github.com

dadoonet/legacy-search/blob/03-mapping/src/main/resources/elasticsearch/person/_settings.json

{
    "settings": {
        "analysis": {
            "analyzer": {
                "ngram": {
                    "tokenizer": "ngram_tokenizer",
                    "filter": [
                        "lowercase"
                    ]
                }
            },
            "tokenizer": {
                "ngram_tokenizer": {
                    "type": "edge_ngram",
                    "min_gram": "1",
                    "max_gram": "10",
                    "token_chars": [
                        "letter",
                        "digit"
                    ]

This file has been truncated. show original

Est-ce que tu as un problème d'espace disque ?

Youssef_SBAI · April 30, 2020, 8:34am

je voulais visualiser tout mon document mais dans ma visualisation cependant j'ai des visualisation en double
par exemple si j'intègre un fichier de 14 000 ligne elastic il ingére 28000doc c'est normal? je souhaite conserver mes 14000 ligne dans elastic

dadoonet · April 30, 2020, 9:41am

Aussi à lire: https://www.elastic.co/guide/en/elasticsearch/reference/current/tune-for-disk-usage.html

dadoonet · April 30, 2020, 9:42am

C'est une autre question (il vaut mieux créer une autre discussion) à laquelle j'ai répondu ici:

Topic		Replies	Views
Mapping Discussions en français	4	626	September 1, 2021
Problème d'indexation Elastic sur des csv Discussions en français	1	1025	January 26, 2016
Filebeat lit des lignes 2 fois Discussions en français	12	1479	August 2, 2020
Problèmes lors d'indexation de fichiers CSV Discussions en français	14	1620	May 26, 2019
Ingestion de deux fichiers CSV dans elastic Discussions en français	8	1028	May 13, 2020

Ingestion en double dans elastic search

Related topics