Запись на сервер, процессор занят на 20%

Maksym_Seleznev · September 22, 2015, 4:06am

пытаюсь понять почему запись на сервер забирает 20% cpu сервера, это нормально?

_nodes/hot_threads ничего интересного не показали

сервер находится в google cloud

Hot threads at 2015-09-22T04:02:49.774Z, interval=500ms, busiestThreads=3, ignoreIdleThreads=true:

3.5% (17.5ms out of 500ms) cpu usage by thread 'elasticsearch[elasticsearch2-elasticsearch-1-vm][refresh][T#1]'
 2/10 snapshots sharing following 2 elements
   java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
   java.lang.Thread.run(Thread.java:745)

какую еще информацию мне надо предоставить

Igor_Motov · September 22, 2015, 10:48am

При записи происходит индексация данных, что является достаточно интенсивной с точки зрения CPU операцией. Сколько вы данных пишите в секунду? Пробуйте hot_threads 5 раз запустить с параметром threads=1000, залейте результаты в gist.github.com и пришлите сюда ссылку.

Maksym_Seleznev · September 22, 2015, 5:23pm

https://gist.github.com/maksymseleznov/4a9b6b5fa1bdc8089aac

я сделал несколько раз, вот такие результаты

Igor_Motov · September 22, 2015, 6:28pm

Похоже, что elasticsearch сливает сегменты, и на это действительно уходит CPU и I/O. А что, это вызывает какие-то проблемы? Вы новые записи добавляете или старые обновляете?

monkimonki · September 22, 2015, 7:05pm

У нас есть три таблицы , допустим A,B,C
в таблице "A" данных всегда больше чем в таблице "В" или "C" примерно в 10 раз.
В таблицу "A" в основном записываются новые данные с периодичностью примерно 1 новый документ в секунду-две
в таблице "А" могут происходить обновления документов - но тоже не очень часто

В таблицу "B" документы в основном обновляются с периодичностью 1 новая запись в секунду-две
Так же в таблицу "B" записываются новые документы , но это не очень часто: 1 новый документ в 30сек-60сек.

В таблицу "С" запись и обновление происходят намного реже чем в других таблицах

-------на данный момент:
A -- 2.5 М документов (590Mb)
B и С -- по 200к документов , B(300MB) C(250MB)
индексируем мы только те поля которые действительно нам нужны

Очень хочется понять в какую сторону стоит двигаться если все данные будут записываться/обновляться в 10-20 раз чаще?

Спасибо Вам за помощь!

Igor_Motov · September 22, 2015, 7:20pm

А таблица это что в elasticsearch? Тип или индекс?

monkimonki · September 22, 2015, 7:39pm

ну у нас есть три типа те
typeA/A
typeB/B
typeC/C

в каждом типе по одному индексу.

Igor_Motov · September 22, 2015, 7:46pm

То есть у вас 3 индекса, и каждый индекс содержит только документы одного типа, так? А как refresh выполняется? Какие-нибудь установки меняли?

monkimonki · September 22, 2015, 8:00pm

да именно так. настройки такие только :
@"settings" : @{
@"number_of_shards" : @(10)
},

мапинг кастумный для каждого типа документов
больше нечего не меняли

Maksym_Seleznev · September 22, 2015, 11:34pm

https://gist.github.com/maksymseleznov/94a23eabec19c089b706 - settings
https://gist.github.com/maksymseleznov/90df76cd94a952064b4f - mappings

не совсем понял что refresh что именно продразумевается?

каждый индекс содержит только одного типа документы

дополнителного ничего не делали, разве что отключили кибану

Igor_Motov · September 23, 2015, 1:11am

Это - Near Real-Time Search | Elasticsearch: The Definitive Guide [2.x] | Elastic

Maksym_Seleznev · September 23, 2015, 2:22am

curl -XPOST http://localhost:9200/_refresh

{"_shards":{"total":60,"successful":30,"failed":0}}

я ничего не менял там по обновлению, все по умолчанию

Вы видели я выложил?
https://gist.github.com/maksymseleznov/94a23eabec19c089b706 - settings
https://gist.github.com/maksymseleznov/90df76cd94a952064b4f - mappings

Igor_Motov · September 23, 2015, 2:57am

Видел. Никаких очевидных проблем не заметил, кроме того, что у вас несколько больших полей not_analyzed (bio например), что само по себе странно и может привезти к проблемам.

Я бы посоветовал протестировать систему под реальной нагрузкой. Я думаю, что предполагать, что увеличение потока документов в 10 раз увеличит нагрузку на CPU в 10 раз в вашем случае не верно.

monkimonki · September 23, 2015, 3:18am

Немного не понятно что не так с "not_analyzed" это же не что иное как "не индексировать" , или я просто что-то не правильно понял

*поля био нам просто не нужно и не понадобится для индексации.

rusty · September 23, 2015, 8:14am

Немного не понятно что не так с "not_analyzed" это же не
что иное как "не индексировать" , или я просто что-то не правильно понял

Не совсем, если не надо индексировать поле совсем (по полю нельзя искать), то надо выставлять "index: no", а "not_analyzed" - индексируем "как есть", сохраняя возможность поиска (см. линк)

Topic		Replies	Views
High CPU usage question Elasticsearch	5	1804	May 19, 2015
CPU spike on indexing data into ElastiSearch Elasticsearch	5	408	February 11, 2015
High cpu usage 100% on elastic search servers Elasticsearch	5	1934	January 11, 2021
High CPU load (3-4) and 50% CPU utilization Elasticsearch	4	3990	July 12, 2015
ElasticSearch High CPU usage 160 queries per second doesn't make sense Elasticsearch	0	1013	April 2, 2015

Запись на сервер, процессор занят на 20%

-------на данный момент: A -- 2.5 М документов (590Mb) B и С -- по 200к документов , B(300MB) C(250MB) индексируем мы только те поля которые действительно нам нужны

Related topics

-------на данный момент:
A -- 2.5 М документов (590Mb)
B и С -- по 200к документов , B(300MB) C(250MB)
индексируем мы только те поля которые действительно нам нужны