Rétention des documents

JeromeGontier · June 22, 2015, 2:57pm

Bonjour à tous,

Je me permets de solliciter votre aide car j'ai hérité de la configuration suivante ElasticSearch Kibana et Logtash installé par un collègue partie depuis. Je ne connais absolument pas ces trois éléments, ce n'est pas mon metiers (Virtualisation et Stockage oui, bdd non), et mon client me demande d'intervenir dessus.
Le problème concerne la taille des documents (314,420,910) pour 168Go. J'image que par défaut, ES garde tout, j'ai cherché sur le site de l’éditeur, ce lien (https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-ttl-field.html ) me parait correct, mais comment dois-je procéder?, c'est là que je suis perdu.
Merci d'avance pour votre compréhension et surtout de l'aide que vous pourrez m'apporter.

Jérôme

ChristopheBoucaut · June 22, 2015, 3:22pm

De toute évidence, il suffit de passer la configuration via le mapping (ce qui sert à décrire les champs d'un document et le type de documents). un simple:

curl -XPUT 'http://localhost:9200/twitter/_mapping/tweet' -d '
{
    "tweet" : {
        "_ttl" : { "enabled" : true, "default" : "1d" }
    }
}
'

devrait suffire. Cependant, je ne suis pas sur qu'il va s'appliquer sur les documents déjà indexés et qu'ils sont à présent périmés. Si cette solution fonctionne pour les nouveaux documents mais pas pour les anciens, il faudra peut-être faire une requête pour les supprimer à la main si une date a été indexées avec (ce qui semble vraisemblable puisque l'on parle de log ici je pense, donc la data doit être avec).

La problématique ici est bien de supprimer les documents après x jours ?

JeromeGontier · June 22, 2015, 3:42pm

Merci pour votre réponse rapide.
Pour répondre à votre dernière question, c'est exactement ça.
Par contre, pour l'action que vous me soumettez, je procède comment, ssh, terminal direct sur le serveur? Quand je dis que je suis novice, je ne ment pas

dadoonet · June 22, 2015, 6:10pm

A noter que si le besoin est de supprimer tous les docs après x jours, le mieux est d'utiliser un index par jour, ajouter un alias sur les index à requêter puis de supprimer les vieux index tous les jours (avec curator par exemple).

Supprimer des docs un par un est inefficace dans ce contexte (niveau perfs).

ChristopheBoucaut · June 22, 2015, 7:43pm

C'est vrai que la solution de david est meilleure ^^ Surtout que ça doit etre ta situation. Si non, pour ma commande, l’exécuter depuis n'importe où qui a un accès au serveur. Donc si y a un quelque chose qui protège les appels à elasticsearch depuis l'extérieur, connectes toi au serveur et exécute la commande.

A voir si ça fonctionne bien ^^ je n'ai pas essayé.

JeromeGontier · June 23, 2015, 7:47am

Bonjour,
Merci pour votre réponse, je pense que ça a été configuré comme ça car les index se nomme tous "logstash-date-du-jour" ou "Marvel-date-du-jour" (pour le coup lui consomme très peu d'espace). En plus, je viens de me rendre compte que les document du 21 mai avaient tous disparus, se qui implique qu'il y a peut-être un TTL en place ou un CRON. Va falloir que j'explore les entrailles de la bêtes. Une idée où chercher?

Jérôme

dadoonet · June 23, 2015, 7:49am

Elasticsearch ne fait jamais de autodrop d'index. Il y a une issue à ce sujet mais à ce jour il n'y a pas de TTL sur un index.
Donc quelqu'un a fait ce drop. Que ce soit manuel ou via un outil tel curator.

Sam67000 · July 6, 2017, 12:21pm

Bonjour David,

Je viens de tomber sur votre post. J'ai une petite question : A quoi sert exactement les alias ?
Les index peuvent être requeté directement, pourquoi avoir recours aux alias ?

Merci d'avance !

dadoonet · July 6, 2017, 12:39pm

Le mieux est d'ouvrir une nouvelle discussion quite à faire référence à ce thread.

Les alias servent à pouvoir changer d'index sans avoir à changer son code.

J'ai un index I1 et un alias A.

Mon code utilise A pour faire des requêtes.
I1 a un seul shard.

6 mois plus tard, je me rends compte que mon index sature. Je crée un index I2 avec 2 shards. Je fais un _reindex de I1 vers I2, je switche l'alias vers I2. Je supprime I1.

Mon application et mes utilisateurs n'ont rien vu.

Topic		Replies	Views
TTL in elastic search is not working Elasticsearch	6	652	July 6, 2017
TTL for documents Elasticsearch	9	1774	July 6, 2017
TTL set and enabled but logs not expiring ...please help Elasticsearch	18	526	July 6, 2017
Ttl is enabled but it is not deleting document Elasticsearch	6	1307	July 5, 2017
How does ES handle deletes? (keeping a sliding window of documents) Elasticsearch	10	1706	July 6, 2017

Rétention des documents

Related topics