Cluster gelé


(Fabrice Granatieri) #1

Bonjour.

Notre cluster :
11 serveurs avec chacun 128 Go RAM
un total de 3 masters node et 33 nodes data avec 19 Go de heap
donc 3 à 4 (pour les 3 masters nodes) nodes/instances par serveur
38 To de data pour plus de 5 milliards de docs dans 400 indices mais dont >80% est dans 30 indices.
plus de 1 To d'ingestion quotidienne

En premier lieu, tous les nodes ont leur RAM utilisée à 95% même avec très peu de connections.
Deuxièmement, dès que l'on reçoit plus de 15/20 requêtes http, tous les serveurs
atteignent les 100% de RAM utilisée et certains nodes gèlent :

  • plus aucune données dans le monitoring dans Kibana
  • très peu de données sont indexées
  • par contre aucune erreur Java OOM et le cluster reste toujours au statut vert
  • on atteint jamais de haut % de CPU utilisé (maxi 20%)

On a un maximum de 70 utlisateurs
Kibana est sur un serveur avec 8Go de RAM
Les masters nodes ont 2 Go de heap

On voit que toute la RAM libre est utilisée par le cache du FS.

On a déjà réduit de à 3/4 nodes par serveur dans grand changement

Devrait-on :

  • passer à 2 node /serveur ?
  • CRONer un flush du cache du FS ?
  • augmenter la hep des master à 4 Go ?
  • tenter de réduire "l'empreinte" mémoire des plus gros indices?

Votre avis ?


(David Pilato) #2

Bonjour,

Désolé pour ne pas regardé ton message plus tôt. Je vois que mes collègues ont répondu de toute façon sur Cluster freeze.

J'espère que tout va mieux. :slight_smile:


(Fabrice Granatieri) #3

pas grave merci pour le follow-up

oui, c'est résolu, le pb venait d'un index patterns en timebased non fonctionnel qui forçait elasticsearch à parcourir tout les shards soit >30To

en revenant à une définition "deprecated" elasticsearch ne parcouirt plus que les shards nécessaire.

Le ven. 26 oct. 2018 à 15:43, David Pilato elastic@discoursemail.com a écrit :


(Fabrice Granatieri) #4

pas grave merci pour le follow-up
oui, c'est résolu, le pb venait d'un index patterns en timebased non fonctionnel qui forçait elasticsearch à parcourir tout les shards soit 30To
en revenant à une définition "deprecated" elasticsearch ne parcourt plus que les shards nécessaires.


(system) #5

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.