Утечка файловых дескрипторов

Denis_Lamanov · October 22, 2018, 6:59pm

Добрый день!)

Есть некие основания предполагать, что начиная с 6.4.0 у ElasticSearch есть утечка файловых дескрипторов. Тех самых, лимит на которые установлен в скриптах запуска в 65536
И вот почему: у нас неправильно построенный кластер с кучей индексов на 2-х машинах и большим количеством RAM. И всё прекрасно работает и не тормозит. Периодически ручками удаляем старые индексы. Месяца 2 назад обновились с 6.3.0 на 6.4.0
Этот кластер живёт уже 2 года. Сейчас у нас около 3700 шард.
И вот, неделю назад на одном севере падает нода и в логах:
max file descriptors for elasticsearch process is too low...
К сожалению мы не мониторили этот параметр и мониториг в Кибане тоже и не могу сказать как быстро и после чего он стал расти.
После того как увеличил значение в скриптах systemd в 10 раз до 655360 всё запустилось, заодно обновил до 6.4.2
Начал мониторить этот параметр и, о ужас, я был удивлен, что после часа работы на каждой ноде процессом Эластика быо открыто около 80 000 файловых дескрипторов. Мониториг показывает, что их количество постепенно растёт, хотя количество индексов - нет. То есть ещё пару дней назад только подходило к лимиту в 65536 и тут сразу 80 000
Могу предоставить всю необходимую информацию.

Заранее спасибо

Igor_Motov · October 22, 2018, 7:18pm

Давайте начнем с вывода GET /_nodes/stats/indices,process

Denis_Lamanov · October 22, 2018, 7:24pm

По лимиту не поместился Json в сыром виде здесь, залил: https://pastebin.com/nr8FbjXD

Igor_Motov · October 22, 2018, 7:38pm

Сейчас у нас около 3700 шард.

Это на весь кластер? Включая праймари и копии?

Denis_Lamanov · October 22, 2018, 7:50pm

Извиняюсь, это на каждую дата-ноду. Всего 1603 индекса, 99% из них без реплик. На каждый индекс 4 шарды. Merge практически не помогает снизить количество fd.

Igor_Motov · October 22, 2018, 8:16pm

Ну арифметика тут такая:

    "segments": {
      "count": 15590,
...
    "open_file_descriptors": 89310,

89310/15590 = 5.7 файлов на сегмент - это вполне нормально
15590/3700=4.2 сегментов на шарду - это даже мало

Другими словами, для вашего количества шард, все выглядит вполне нормально. Другой вопрос в том, зачем вам такое огромное количество шард, если у вас всего 2 ноды?

Denis_Lamanov · October 22, 2018, 8:22pm

Хороший вопрос) В ближайшие 2 месяца мы планируем резко увеличить количество нод до 7. Но самое интересное, что и в данной конфигурации нет проблем с производительностью. Разве что напрягает отсутствие реплик для всех индексов. Кстати, во график роста fd из Графаны:

Igor_Motov · October 22, 2018, 8:36pm

У вас, судя по всему, очень маленькие индексы - не очень понятно зачем им нужны 4 шарды.

Denis_Lamanov · October 23, 2018, 8:28am

Размеры индексов, количество документов (Docs (Size) x Count):
https://pastebin.com/BL2zeY6M

Vladimir.Dolzhenko · October 23, 2018, 8:41am

Много индексов не то, что маленьких, а крохотных (килобайты или десятки мегабайт). При этом на каждый индекс создаётся экземпляр Lucene со всеми file halder-ами и прочими накладными расходами. Стоит пересмотреть подход к таким индексам в сторону их укрупнения, или вообще закрыть, если они не нужны.

Denis_Lamanov · October 23, 2018, 8:54am

Будем считать, что такое количество файловых дескрипторов это нормально для данного случая, особенно учитывая, что лимит поднят до довольно высокого значения. Но в мониторинг поставил

Denis_Lamanov · October 24, 2018, 10:52am

Ребята, есть новости: количество индексов не увеличивалось, а количество fd росло, что заставило меня заняться поиском причины. Отсортировал папки с индексами по количеству файлов. И ужас:

Оказалось, что 2 индекса содержат файлов на несколько порядков больше. Сами же индесы занимают по 5 Мб. Их пишет другой отдел и выяснилось, что они делают update очень часто во время миграции. То есть эта куча файлов есть translog и его нужно как-то смёржить.
Пробовал делать этим 2-м индексам forcemerge и synced flush - не помогает, хотя, согласено документации(https://www.elastic.co/guide/en/elasticsearch/guide/current/dynamic-indices.html) должно помочь

Есть какие-то идеи что делать?

Спасибо

Vladimir.Dolzhenko · October 24, 2018, 11:44am

Можно получить детали внутри папок с индексами т.е сколько fd к каждому файлу ? там две большие части - index и translog

Denis_Lamanov · October 24, 2018, 11:46am

Выставил для этих индексов:
"index.translog.retention.age": "1h"
Помогло. Кстати, как выставить 15 минут: "15m"?

Vladimir.Dolzhenko · October 24, 2018, 11:52am

да 15минут это 15m,

не нашёл лучшей документации

github.com

elastic/elasticsearch/blob/237650e9c054149fd08213b38a81a3666c1868e5/libs/core/src/test/java/org/elasticsearch/common/unit/TimeValueTests.java#L44




public void testSimple() {
    assertThat(TimeUnit.MILLISECONDS.toMillis(10), equalTo(new TimeValue(10, TimeUnit.MILLISECONDS).millis()));
    assertThat(TimeUnit.MICROSECONDS.toMicros(10), equalTo(new TimeValue(10, TimeUnit.MICROSECONDS).micros()));
    assertThat(TimeUnit.SECONDS.toSeconds(10), equalTo(new TimeValue(10, TimeUnit.SECONDS).seconds()));
    assertThat(TimeUnit.MINUTES.toMinutes(10), equalTo(new TimeValue(10, TimeUnit.MINUTES).minutes()));
    assertThat(TimeUnit.HOURS.toHours(10), equalTo(new TimeValue(10, TimeUnit.HOURS).hours()));
    assertThat(TimeUnit.DAYS.toDays(10), equalTo(new TimeValue(10, TimeUnit.DAYS).days()));
}


public void testToString() {
    assertThat("10ms", equalTo(new TimeValue(10, TimeUnit.MILLISECONDS).toString()));
    assertThat("1.5s", equalTo(new TimeValue(1533, TimeUnit.MILLISECONDS).toString()));
    assertThat("1.5m", equalTo(new TimeValue(90, TimeUnit.SECONDS).toString()));
    assertThat("1.5h", equalTo(new TimeValue(90, TimeUnit.MINUTES).toString()));
    assertThat("1.5d", equalTo(new TimeValue(36, TimeUnit.HOURS).toString()));
    assertThat("1000d", equalTo(new TimeValue(1000, TimeUnit.DAYS).toString()));
}


public void testMinusOne() {
    assertThat(new TimeValue(-1).nanos(), lessThan(0L));

Denis_Lamanov · October 24, 2018, 12:29pm

Всем спасибо. Картина получилась сейчас такая

Igor_Motov · October 24, 2018, 2:37pm

Я бы порекомендовал уменьшить количество шард и индексов, вместо того, чтобы менять параметры лога транзакций и merge policy что, как правило, ни к чему хорошему в долгосрочной перспективе не приводит.

system · November 21, 2018, 2:37pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Excessive Number of Open File Descriptor Count Elasticsearch	8	689	July 6, 2017
Too many open files warning Elasticsearch	9	3603	July 6, 2017
Problem with file descriptors Elasticsearch	7	352	July 6, 2017
Strange no. of file descriptors eating up Elasticsearch	14	815	July 6, 2017
Too Many Open Files Elasticsearch	4	1612	July 6, 2017

Утечка файловых дескрипторов

Related topics