Профилирование запроса

GreenX · March 14, 2018, 3:54pm

Доброго времени суток!
Пропущу предысторию про тормоза )
В общем, решил понять куда уходит время в запросе.
Контрольный запрос выполняется за 1,14сек,.
Запустил его с прифилированием, и получается, что на каждой шарде:
"Родительский query time" + "rewrite_time" + "collector time" не превышает 10мс.
Т.е. даже если последовательно выполнять запрос на каждой шарде до 1,14 секунд очень далеко.
Как понять куда еще ушло время?

Igor_Motov · March 15, 2018, 12:55am

Профайлер запросов не всегда хорошо работает, к сожалению. Я обычно пытаюсь запускать запросы по частям - например, убираем все аггрегации, смотрим сколько времени занял запрос, добавляем одну, сравниваем, и т.д.

GreenX · March 16, 2018, 1:02pm

Более-менее разобрался... Пришлось теорию почитать. Ведь читал, но забыл.
https://www.elastic.co/guide/en/elasticsearch/guide/current/_query_phase.html
Поиск осуществляется в две фазы, собственно поиск и получение документов.
Я сдампил трафик и сопоставил его с полученным профилем (по последней ответившей шарде).
Получается, что в профиль поиска по шарде попадет только непосредственно поиск.
query.time+rewrite_time+collector.time+agregations.time.
Поднятие документов с диска сюда не входит, что собственно логично, хотя и можно было бы и отразить.

1521195638.920560 - Начало запроса
1521195638.920597 - последний пакет с запросом

1521195638.921435 - indices:data/read/search[phase/query]
1521195638.941408 - начало ответа шарды
1521195638.941888 - конец ответа

1521195638.973933 - indices:data/read/search[phase/fetch/id]
1521195639.337249 - начало ответа шарды
1521195641.282545 - конец ответа шарды

1521195641.283771 - Начало ответа
1521195641.363141 - Весь ответ получен

Весь запрос (От начала запроса до начала ответа): 2.36321115494
От получения запроса до запроса на дата-ноды: 0.000838041305542

Фаза поиска:
Запросы ушли на все ноды в течение: 0.00032901763916 сек.
Поиск за: 0.0199728012085 сек <-- Только это попадает в профиль
Вся фаза: 0.0204529762268

Между фазами: 0.0320448875427 сек

Фаза получения:
Все fetch запросы ушли за: 0.000550031661987 сек.
От запроса до ответа: 0.363316059113
Вся фаза подъема: 2.30861210823 <- Не попадает в профилировщик

Получается, что дольше всего я отдаю сами документы.
Насколько критично, что один индекс 40 млн документов 700Г (без реплики)?
Может пора резать?
P.S. Вопрос именно про поиск, складываю медленно, но верно )

Igor_Motov · March 16, 2018, 2:43pm

А что вы получаете в этом запросе?

GreenX · March 16, 2018, 2:59pm

Грубо говоря - это реестр документов.
Соответственно два индексируемых поля:

Имя документа
Тело документа,

И несколько не индексируемых:

Пользователь
Родительский документ
Права

Запрос возвращает список: UUID'ы с именем и свойствами. т.е. без тела.
Правда полотенце получается иногда на пару мегабайт.

Igor_Motov · March 16, 2018, 8:12pm

Меня больше инетересовало, сколько документов вы возвращаете назад, от куда поля беруться (_source, doc_values, stored fields) и какое отношение размеров uuid относительно размера всего документа.

GreenX · March 20, 2018, 3:18pm

Пропустил ответ(
В общем, _source, doc_values, stored fields - используются с дефолтными настройками (если используются). Соотношение получается 3500 хитов в 8 мегабайтовой json-ине.

Igor_Motov · March 21, 2018, 2:11pm

Соотношение получается 3500 хитов в 8 мегабайтовой json-ине.

Это вы про вывод или исходный документ? Я просто к тому, что если вы только одно получаете, то может иметь смысл хранить это поле с doc values и вытаскивать его из doc values вместо _source

GreenX · March 21, 2018, 2:32pm

Это выдача поиска - список подходящих документов. Каждый элемент: UUID документа, имя документа и список не индексируемых свойств (владельцы,иерархия и т.п.). вот этот список получается достаточно объемный.
Конечно от запроса зависит. Тут я специально искал слово которое часто встречается, чтобы увеличить время для замера. Сами документы - всякие текстовые документы в среднем около 16К.

Igor_Motov · March 21, 2018, 3:00pm

16K - это не так много, поэтому будет ли результат сказать сложно. А вы не могли бы запустить hot_threads пока запрос работатет (а еще лучше если несколько запросов работают паралельно и запустить hot_threads несколько раз). Было бы интересно посмотреть, где застревает.

GreenX · March 21, 2018, 4:26pm

Вот в 10 параллельных запросов бомблю: https://pastebin.com/byCgnNLU

Igor_Motov · March 21, 2018, 6:12pm

Да, похоже, что все время тратиться на то, чтобы загрузить и парсить source. Я думаю, что имеет смысл попробовать хранить данные, которые вам нужны в большом количестве отдельно как stored fields или docvalues.

GreenX · March 21, 2018, 6:24pm

индекс на много вырастет?

Igor_Motov · March 21, 2018, 7:39pm

Если у вас эти поля проиндексированы как keyword, то у вас уже должны быть docvalues. Если нет - то все зависит от размера и разношерстности данных. Экспериментировать надо.

GreenX · March 21, 2018, 7:52pm

Ok. Спасибо большое. Последний вопрос, стоит заморачиваться с раздельными алиасами для индексации и посика?

Igor_Motov · March 21, 2018, 10:44pm

Раздельные алиасы полезны при переиндексации данных на лету (без остановки поиска, например). Я не знаю вашу ситуацию, поэтому затрудняюсь сказать будет ли вам они полезны или нет.

GreenX · March 22, 2018, 10:39am

Я то больше интересовался в плане производительности.
Т.е. каджый месяц я делаю новый индекс и меняю алиасы:
index_alias -> docs-2018-05
search_alias -> docs*

Igor_Motov · March 22, 2018, 1:35pm

На производительность алиасы сами по себе никак не влияют. Создание нового индекса каждый месяц - влиять будет, но как вы к этому индексу обращаться будете - через алиас или напрямую по имени, особого значения для производительности не имеет, алиасы - они просто для удобства.

GreenX · March 22, 2018, 1:55pm

Я думаю, что бесконечно индексы не могут расти и оперировать гигантскими сегментами будет сложнее и сложнее.

system · April 19, 2018, 1:55pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Вопрос по агрегации и скорости Вопросы на русском языке	32	2703	January 11, 2019
Проблема с быстродействием при запросе c "fuzziness" Вопросы на русском языке	14	2150	July 6, 2017
Query Execution Time, Performance Elasticsearch	13	3878	July 6, 2017
Random very slow queries Elasticsearch	8	2542	July 6, 2017
ElasticSearch ProfileAPI Elasticsearch	6	853	March 30, 2017

Профилирование запроса

Related topics