Lucene Merge Thread в hot threads

Denis_Lamanov · August 7, 2019, 3:16pm

У человека такая же ситуация: [6.8.2] Unusual Server Load

Denis_Lamanov · August 13, 2019, 10:48am

Проанализировал разницу между нагрузкой на нодах. CPU и диски загружены одинаково. Раница существенная в Load Average и Context switсhes. На высоконагруженной ноде всё в среднем в 2-2.5 раза больше.
Могу прислать hotthreads со всех нод

Igor_Motov · August 13, 2019, 1:54pm

Присылайте, посмотрим.

Denis_Lamanov · August 20, 2019, 1:24pm

Hot threads(hot_threads?threads=9999) для всех нод:

node00 https://gist.github.com/UkrZilla/712778936148e697a156d13086504931
node01 https://gist.github.com/UkrZilla/a72e39456acdf5024bcc7d9529318878
node02 https://gist.github.com/UkrZilla/607ac7f8475068d4e0941c9dac57907f
node03 https://gist.github.com/UkrZilla/c606d7b7bf469c61abfd349d9a579aff
node04 https://gist.github.com/UkrZilla/56fea57082e788ccc311b80f6bc0c91f
node05 https://gist.github.com/UkrZilla/29202c6ef0095ba79f8548559534669b
node06 https://gist.github.com/UkrZilla/d2d6b5de1de7f7f273ea56208bb625fa

Denis_Lamanov · August 20, 2019, 1:27pm

Высоконагруженная нода: node04 - Load Average на графике красным

Igor_Motov · August 21, 2019, 12:41pm

Как у вас распределены шарды индекса gameplay.raid.globalevents_201908_1?

Denis_Lamanov · August 21, 2019, 1:12pm

Извиняюсь что картинкой

Igor_Motov · August 21, 2019, 3:52pm

Странно, нагрузка в основном наблюдается от операции merge на этом индексе. Но вроде он нормально распределен. Это физическое железо или виртуалки?

Denis_Lamanov · August 22, 2019, 7:32am

Довольно мощное железо. Хм, отключили запись этого лога и вот что получилось. И это уже более менее приемлимо. Кстати globalevents_201908_1 - индекс в который на тот момент не велась запись. 1 - номер недели с 0

Denis_Lamanov · September 12, 2019, 6:34pm

Прошла неделя с более приемлимой нагрузкой. Создались новые недельные и ндексы и ситуация опять повторяется. На скриншоте load average по нодам. И опять же нода с большей нагрузкой почему-то мёржит инексы, хотя другие ноды это успевают быстрее сделать
Что мне ещё предоставить?

Постараемся обновиться до 7-ки в начале следующей недели, но не думаю что этот баг там пофиксили. Иначе бы выпустили версию и для 6-ки с багфиксом
Насколько я понимаю это связано с огромными размерами наших нард

Спасибо

Igor_Motov · September 12, 2019, 6:50pm

Это далеко не факт, я не помню чтобы какие-то сообщения пробегали о том, что это широко-распространненая проблема, и к безопасность она никакого отношения не имеет. Так что если что-то и улучшили, то могли в 6-ку не добавить.

Denis_Lamanov · September 12, 2019, 6:51pm

Да, у нас не типичный случай) Тогда обновляемся в понедельник на 7.3.2
Сообщу о результатах

Denis_Lamanov · September 14, 2019, 9:21am

Заметил, что у ноды с большей нагрузкой всегда открыто на пару тысяч файлов меньше

Раз нагрузка в merge, то может сделать шарды поменьше сделав индексы дневными?

Igor_Motov · September 16, 2019, 12:54pm

Вы пытались анализировать распределение шард и смотреть какой индекс вызывает такое поведение.

Denis_Lamanov · September 16, 2019, 1:43pm

Как и в прошлый раз - все шарды равномерно распределены по нодам. Индексов несколько и они самые большие. Такое ощущение, что нода ведёт себя как будто вручную на индексах запустили merge, но только на одной ноде. Включил ежедневное создание индексов и сервис начал писать в новые индексы, но та нода продолжает делать merge индексов в которые уже не идёт запись

Denis_Lamanov · September 17, 2019, 11:15am

Перевод двух самых больших индексов на дневные дал свой эффект

Но всё равно обновляемся до 7-ки

Igor_Motov · September 17, 2019, 12:49pm

Забавно. А у вас там какой-нибудь curator или ILM не настроен старые индексы до одного сегмента сливать?

Denis_Lamanov · September 17, 2019, 1:46pm

Тоже думал так, очень похоже. Когда-то делали forcemerge, но на таких объёмах это делать бесполезно: занимает много места и памяти.
В ILM нет ни одной policy. Curator не используем

Denis_Lamanov · September 29, 2019, 5:41pm

Перешли на 7.3. Все баги полечились. Скорость индексации увеличилась. Нагрузка на кластер уменьшилась и нет перекосов

Теперь Load Average такой:

system · October 27, 2019, 5:41pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Node experiencing relatively high CPU usage Elasticsearch	27	4139	July 6, 2017
Merge Thread busy even when refresh_interval disabled for indexing Elasticsearch	9	8753	July 5, 2017
Heavy load on one node (1 index) Elasticsearch	12	2256	July 6, 2017
Excessive merging/small segment sizes Elasticsearch	26	3660	July 6, 2017
High CPU usage because lucene merge thread Elasticsearch	6	1786	July 15, 2021

Lucene Merge Thread в hot threads

Related topics