Cluster gelé

Fabrice_Granatieri · October 3, 2018, 12:39pm

Bonjour.

Notre cluster :
11 serveurs avec chacun 128 Go RAM
un total de 3 masters node et 33 nodes data avec 19 Go de heap
donc 3 à 4 (pour les 3 masters nodes) nodes/instances par serveur
38 To de data pour plus de 5 milliards de docs dans 400 indices mais dont >80% est dans 30 indices.
plus de 1 To d'ingestion quotidienne

En premier lieu, tous les nodes ont leur RAM utilisée à 95% même avec très peu de connections.
Deuxièmement, dès que l'on reçoit plus de 15/20 requêtes http, tous les serveurs
atteignent les 100% de RAM utilisée et certains nodes gèlent :

plus aucune données dans le monitoring dans Kibana
très peu de données sont indexées
par contre aucune erreur Java OOM et le cluster reste toujours au statut vert
on atteint jamais de haut % de CPU utilisé (maxi 20%)

On a un maximum de 70 utlisateurs
Kibana est sur un serveur avec 8Go de RAM
Les masters nodes ont 2 Go de heap

On voit que toute la RAM libre est utilisée par le cache du FS.

On a déjà réduit de à 3/4 nodes par serveur dans grand changement

Devrait-on :

passer à 2 node /serveur ?
CRONer un flush du cache du FS ?
augmenter la hep des master à 4 Go ?
tenter de réduire "l'empreinte" mémoire des plus gros indices?

Votre avis ?

dadoonet · October 26, 2018, 1:33pm

Bonjour,

Désolé pour ne pas regardé ton message plus tôt. Je vois que mes collègues ont répondu de toute façon sur Cluster freeze.

J'espère que tout va mieux.

Fabrice_Granatieri · October 26, 2018, 1:47pm

pas grave merci pour le follow-up

oui, c'est résolu, le pb venait d'un index patterns en timebased non fonctionnel qui forçait elasticsearch à parcourir tout les shards soit >30To

en revenant à une définition "deprecated" elasticsearch ne parcouirt plus que les shards nécessaire.

Le ven. 26 oct. 2018 à 15:43, David Pilato elastic@discoursemail.com a écrit :

Fabrice_Granatieri · October 26, 2018, 1:48pm

pas grave merci pour le follow-up
oui, c'est résolu, le pb venait d'un index patterns en timebased non fonctionnel qui forçait elasticsearch à parcourir tout les shards soit 30To
en revenant à une définition "deprecated" elasticsearch ne parcourt plus que les shards nécessaires.

system · November 23, 2018, 1:48pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Problème de mémoire Discussions en français	6	555	June 8, 2020
Cluster freeze Elasticsearch	11	1148	October 31, 2018
Crash régulier Discussions en français	3	731	February 8, 2019
Large Data Set with Low Memory = Frozen Nodes Elasticsearch	2	1102	July 6, 2017
Single node takes down entire cluster Elasticsearch	5	2337	July 6, 2017

Cluster gelé

Related topics