Вопрос по агрегации и скорости


(Igor Motov) #21

Я практик :slight_smile: и на практике какая-нибудь "мелочь", которая вам кажется неважной, может существенно повлиять не результат.

За то время, пока мы с вами обсуждаем эту проблему, можно было все эти данные на 5.6 уже несколько раз залить, разбивая на индексы, и протестировать.


(leov) #22

вот только поменяли параметры памяти
посмотрите пожалуйста
_nodes001
_nodes_stats001
и если не трудно подскажите на что там следует обращать внимание

нет вроде ничего сильно не поменялось после изменения параметров памяти
может не то или не так сделали...

дальше буду работать над разбиением по годам
предполагаю что и нод надо в каждом году добавить
и настройки кэширования надо подергать

и постараюсь пробить обновление версии


(leov) #23

обновился до 5.6. пока проблемы с заливкой решаю. при больших пачках bulk валится. хотя скорее всего это php еще на подготовке пачки.

не подскажете ли а нельзя тут сделать какой-то мапинг впрок для линии индексов?
чтобы он применялся для индексов например myindex_stat_2015 .... и т.д
при заливке следующих данных возникнет 2019 и чтобы оно подхватило аналогичное существующему 2018
чтобы не создавать заранее кучу пустых индексов


(Igor Motov) #24

Как он валится?

Проще всего это сделать создав index template.


(leov) #25

php валится. до эластика не доходит. видимо что-то с памятью сдвинулось потому как проходило ведь уже. надо пачки поменьше делать

посмотрю на index template. спасибо


(leov) #26

сделал index template
сделал разбиение индекса по годам
чуть более 2 сек на полном запросе что в общем уже вполне приемлемо
еще бы хотелось чтобы вы просмотрели конфигурацию
и/или подсказали на что там следует обращать внимание

большое спасибо Вам за помощ.


(Igor Motov) #27

Для этого на новые node info и stats с кластера, на котором уже ваши запросы были протестированы, надо посмотреть.


(leov) #28

_nodes.json
_node_stats.json

добавление количества шард в индекс увеличивает скорость
на 2018 году скорость было 2.3сек а после пересоздания с 2 шардами 1.4сек
попробую еще больше разбить


(leov) #29

при разбивке помесячно и с 2 шардами ответ 1.7сек
ну в общем тема почти исчерпана
посмотрите и прокомментируйте пожалуйста отчеты
хотелось бы узнать на что в них следует обращать внимание


(Igor Motov) #30

Кроме как со свапом проблем, вроде, не вижу.


(leov) #32

а не подскажете ли еще со скоростью загрузки как можно улучшить
вроде читаю всякие статьи и говорят про какие-то фантастические скорости
а практически получается заливать пачками по 10тыс за 5 сек
итого на моем наборе ~2.5 часа выходит
в моем случае это не проблема. раз залью историю а дальше только анализ
но в принципе хотелось бы владеть вопросом быстрой заливки
читал что вроде еще в несколько потоков надо пакеты заталкивать... у меня пока в один поток
может есть какие-то инструменты чтобы из mysql толкать прямиком в ES


(Igor Motov) #33

Да, это, скорее всего, не оптимально.

https://www.elastic.co/guide/en/logstash/current/plugins-inputs-jdbc.html