Объем требуемого дискового пространства стал больше в ElasticSearch 5.x

Здравствуйте!
После перехода на пятую версию Эластика, при индексации одних и тех же данных, обнаружили, что размер индекса стал больше от 1,5 до 2 раз.

В чем может быть причина такого резкого увеличения размера индекса?

Спасибо.

С уважением,
Дмитрий.

От меппинга зависит. Вы меппинг сами задавали или он автоматически был создан? Надо сравнить как меппинг выглядел до перехода на пятую версию и после. В 5.0 произошли существенные изменения. Например, текстовые поля теперь индексируются дважды если вы для них тип сами не указали.

Игорь, здравствуйте!

Мы делали разные варианты: Keyword и text, в первом случае размер вырос раза в полтора, во втором - в два.

Это нормальное поведение системы?

А какой маппинг был у этих полей в 2.x? Вы не могли бы также прислать результат ls -l в /data/nodes/0/indices/UUID-ИНДЕКСА/0/index в 5.x и то же самое в одной из шард в 2.x. Хотелось бы посмотреть в какой тип файлов забрал это место. UUID-ИНДЕКСА можно получить с помощью команды

curl localhost:9200/_cat/indices?v

Со второй версией уже сложнее, снесли часть данных, но вопрос довольно серьезный, поэтому в ближайшее время реанимируем вторую версию и проверим

Игорь, здравствуйте!
развернуть 2-й эластик нам не удалось, однако, в ходе анализа данных, обнаружили следующую вещь, которая может быть даст ответ на вопрос, почему так много стало использоваться дискового пространства.

У нас есть два индекса, один содержит набор документов, другой, скажем так, идентификаторы этих документов. Число документов в одном и другом индексах должно быть одинаково

Теперь я хочу предоставить результат ряда запросов, которые дают немного странную для нас картину ( на втором эластике такого не наблюдалось)

итак,

  1. Количество документов через _count в хранилище документов
    curl -XGET 'http://localhost:9200/doc_index/_count?pretty'
    {
    "count" : 35652130,
    "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
    }
    }

2 Количество документов через _count в хранилище ссылок
curl -XGET 'http://localhost:9200/doc_index_check/_count?pretty'
{
"count" : 35652130,
"_shards" : {
"total" : 1,
"successful" : 1,
"failed" : 0
}
}
Как видим, пока все хорошо.
Но вот результат другой команды:
3.
curl -XGET 'http://localhost:9200/_cat/indices/doc_index/?'
yellow open fns_ul En6Kuhw5TFuIXbwu9jwqiA 5 1 469280725 0 513.1gb 513.1gb

как мы видим, количество документов, согласно документации - 469280725, что более чем на порядок результата в пункте 1.

такая же команда для doc_index_check
4.
curl -XGET 'http://localhost:9200/_cat/indices/doc_index_check/?'
yellow open fns_ul_check hPs0X09RQ-yS7uo3Hw-gpw 1 1 35652130 0 2gb 2gb
дает корректное число документов.

Можно ли как-то объяснить такое расхождение по количеству документов в индексе при выполнении разных команд?

Спасибо.

Обычно, это происходить при использовании полей с типом nested, которые индексируются как отдельные скрытые документы. Только эта часть между 2.x и 5.x никак не изменялась. Если только вы меппинг при переходе на 5.x не изменили самостоятельно.

Если сравнить сложно с 2.x, то давайте хотя бы посмотрим что у вас с файлами в 5.x творится.

странно, текст не могу прикрепить,

total 107548312
-rw-r--r-- 1 elastic users 863 Feb 16 14:13 _11k.dii
-rw-r--r-- 1 elastic users 53374717 Feb 16 14:13 _11k.dim
-rw-r--r-- 1 elastic users 665875785 Feb 16 14:09 _11k.fdt
-rw-r--r-- 1 elastic users 361441 Feb 16 14:09 _11k.fdx
-rw-r--r-- 1 elastic users 100262 Feb 16 14:17 _11k.fnm
-rw-r--r-- 1 elastic users 1087298523 Feb 16 14:17 _11k.nvd
-rw-r--r-- 1 elastic users 4746 Feb 16 14:17 _11k.nvm
-rw-r--r-- 1 elastic users 579 Feb 16 14:17 _11k.si
-rw-r--r-- 1 elastic users 192443175 Feb 16 14:11 _11k_Lucene50_0.doc
-rw-r--r-- 1 elastic users 384507195 Feb 16 14:11 _11k_Lucene50_0.pos
-rw-r--r-- 1 elastic users 166170076 Feb 16 14:11 _11k_Lucene50_0.tim
-rw-r--r-- 1 elastic users 2994188 Feb 16 14:11 _11k_Lucene50_0.tip
-rw-r--r-- 1 elastic users 260594537 Feb 16 14:13 _11k_Lucene54_0.dvd
-rw-r--r-- 1 elastic users 70603 Feb 16 14:13 _11k_Lucene54_0.dvm
-rw-r--r-- 1 elastic users 827 Feb 16 15:28 _32f.dii
-rw-r--r-- 1 elastic users 100968827 Feb 16 15:28 _32f.dim
-rw-r--r-- 1 elastic users 1331715401 Feb 16 15:19 _32f.fdt
-rw-r--r-- 1 elastic users 751721 Feb 16 15:19 _32f.fdx
-rw-r--r-- 1 elastic users 92504 Feb 16 15:35 _32f.fnm
-rw-r--r-- 1 elastic users 1987287788 Feb 16 15:35 _32f.nvd
-rw-r--r-- 1 elastic users 4361 Feb 16 15:35 _32f.nvm
-rw-r--r-- 1 elastic users 578 Feb 16 15:35 _32f.si
-rw-r--r-- 1 elastic users 394644506 Feb 16 15:23 _32f_Lucene50_0.doc
-rw-r--r-- 1 elastic users 777499806 Feb 16 15:23 _32f_Lucene50_0.pos
-rw-r--r-- 1 elastic users 341583556 Feb 16 15:23 _32f_Lucene50_0.tim
-rw-r--r-- 1 elastic users 6151621 Feb 16 15:23 _32f_Lucene50_0.tip
-rw-r--r-- 1 elastic users 532598618 Feb 16 15:28 _32f_Lucene54_0.dvd
-rw-r--r-- 1 elastic users 98753 Feb 16 15:28 _32f_Lucene54_0.dvm
-rw-r--r-- 1 elastic users 839 Feb 16 16:30 _4y3.dii
-rw-r--r-- 1 elastic users 102941301 Feb 16 16:30 _4y3.dim
-rw-r--r-- 1 elastic users 1350455757 Feb 16 16:20 _4y3.fdt
-rw-r--r-- 1 elastic users 762197 Feb 16 16:20 _4y3.fdx
-rw-r--r-- 1 elastic users 95565 Feb 16 16:37 _4y3.fnm
-rw-r--r-- 1 elastic users 2059487748 Feb 16 16:37 _4y3.nvd
-rw-r--r-- 1 elastic users 4515 Feb 16 16:37 _4y3.nvm
-rw-r--r-- 1 elastic users 579 Feb 16 16:37 _4y3.si
-rw-r--r-- 1 elastic users 401261866 Feb 16 16:25 _4y3_Lucene50_0.doc
-rw-r--r-- 1 elastic users 781331543 Feb 16 16:25 _4y3_Lucene50_0.pos
-rw-r--r-- 1 elastic users 336393309 Feb 16 16:25 _4y3_Lucene50_0.tim
-rw-r--r-- 1 elastic users 6062754 Feb 16 16:25 _4y3_Lucene50_0.tip
-rw-r--r-- 1 elastic users 506168250 Feb 16 16:29 _4y3_Lucene54_0.dvd
-rw-r--r-- 1 elastic users 102282 Feb 16 16:29 _4y3_Lucene54_0.dvm
-rw-r--r-- 1 elastic users 790 Feb 16 16:45 _5n2.dii
-rw-r--r-- 1 elastic users 55149558 Feb 16 16:45 _5n2.dim
-rw-r--r-- 1 elastic users 680897205 Feb 16 16:41 _5n2.fdt
-rw-r--r-- 1 elastic users 378313 Feb 16 16:41 _5n2.fdx
-rw-r--r-- 1 elastic users 90864 Feb 16 16:49 _5n2.fnm
-rw-r--r-- 1 elastic users 1025868497 Feb 16 16:49 _5n2.nvd
-rw-r--r-- 1 elastic users 4306 Feb 16 16:49 _5n2.nvm
-rw-r--r-- 1 elastic users 579 Feb 16 16:49 _5n2.si
-rw-r--r-- 1 elastic users 203198305 Feb 16 16:43 _5n2_Lucene50_0.doc
-rw-r--r-- 1 elastic users 386711851 Feb 16 16:43 _5n2_Lucene50_0.pos
-rw-r--r-- 1 elastic users 166087370 Feb 16 16:43 _5n2_Lucene50_0.tim
-rw-r--r-- 1 elastic users 2997044 Feb 16 16:43 _5n2_Lucene50_0.tip
-rw-r--r-- 1 elastic users 256561333 Feb 16 16:45 _5n2_Lucene54_0.dvd
-rw-r--r-- 1 elastic users 57366 Feb 16 16:45 _5n2_Lucene54_0.dvm
-rw-r--r-- 1 elastic users 881 Feb 16 17:35 _72k.dii

-rw-r--r-- 1 elastic users 53911070 Feb 16 17:35 _72k.dim
-rw-r--r-- 1 elastic users 677165971 Feb 16 17:30 _72k.fdt
-rw-r--r-- 1 elastic users 359606 Feb 16 17:30 _72k.fdx
-rw-r--r-- 1 elastic users 100041 Feb 16 17:39 _72k.fnm
-rw-r--r-- 1 elastic users 1141850083 Feb 16 17:39 _72k.nvd
-rw-r--r-- 1 elastic users 4713 Feb 16 17:39 _72k.nvm
-rw-r--r-- 1 elastic users 579 Feb 16 17:39 _72k.si
-rw-r--r-- 1 elastic users 191564549 Feb 16 17:32 _72k_Lucene50_0.doc
-rw-r--r-- 1 elastic users 402666729 Feb 16 17:32 _72k_Lucene50_0.pos
-rw-r--r-- 1 elastic users 174508557 Feb 16 17:32 _72k_Lucene50_0.tim
-rw-r--r-- 1 elastic users 3177916 Feb 16 17:32 _72k_Lucene50_0.tip
-rw-r--r-- 1 elastic users 288533483 Feb 16 17:35 _72k_Lucene54_0.dvd
-rw-r--r-- 1 elastic users 72775 Feb 16 17:35 _72k_Lucene54_0.dvm
-rw-r--r-- 1 elastic users 887 Feb 16 18:26 _8cy.dii
-rw-r--r-- 1 elastic users 97227231 Feb 16 18:26 _8cy.dim
-rw-r--r-- 1 elastic users 1309150324 Feb 16 18:16 _8cy.fdt
-rw-r--r-- 1 elastic users 719041 Feb 16 18:16 _8cy.fdx
-rw-r--r-- 1 elastic users 101518 Feb 16 18:34 _8cy.fnm
-rw-r--r-- 1 elastic users 2108873261 Feb 16 18:34 _8cy.nvd
-rw-r--r-- 1 elastic users 4790 Feb 16 18:34 _8cy.nvm
-rw-r--r-- 1 elastic users 578 Feb 16 18:34 _8cy.si
-rw-r--r-- 1 elastic users 384780533 Feb 16 18:21 _8cy_Lucene50_0.doc
-rw-r--r-- 1 elastic users 745263394 Feb 16 18:21 _8cy_Lucene50_0.pos
-rw-r--r-- 1 elastic users 302213902 Feb 16 18:21 _8cy_Lucene50_0.tim
-rw-r--r-- 1 elastic users 5541967 Feb 16 18:21 _8cy_Lucene50_0.tip
-rw-r--r-- 1 elastic users 521172940 Feb 16 18:25 _8cy_Lucene54_0.dvd
-rw-r--r-- 1 elastic users 110844 Feb 16 18:25 _8cy_Lucene54_0.dvm
-rw-r--r-- 1 elastic users 881 Feb 16 19:10 _9ob.dii
-rw-r--r-- 1 elastic users 98223828 Feb 16 19:10 _9ob.dim
-rw-r--r-- 1 elastic users 1290682957 Feb 16 19:01 _9ob.fdt
-rw-r--r-- 1 elastic users 703550 Feb 16 19:01 _9ob.fdx
-rw-r--r-- 1 elastic users 98503 Feb 16 19:18 _9ob.fnm
-rw-r--r-- 1 elastic users 2150518946 Feb 16 19:18 _9ob.nvd
-rw-r--r-- 1 elastic users 4625 Feb 16 19:18 _9ob.nvm
-rw-r--r-- 1 elastic users 579 Feb 16 19:18 _9ob.si
-rw-r--r-- 1 elastic users 379550353 Feb 16 19:06 _9ob_Lucene50_0.doc
-rw-r--r-- 1 elastic users 748511134 Feb 16 19:06 _9ob_Lucene50_0.pos
-rw-r--r-- 1 elastic users 311397923 Feb 16 19:06 _9ob_Lucene50_0.tim
-rw-r--r-- 1 elastic users 5708998 Feb 16 19:06 _9ob_Lucene50_0.tip
-rw-r--r-- 1 elastic users 561676297 Feb 16 19:10 _9ob_Lucene54_0.dvd
-rw-r--r-- 1 elastic users 115605 Feb 16 19:10 _9ob_Lucene54_0.dvm
-rw-r--r-- 1 elastic users 405 Feb 16 20:11 _bay.cfe
-rw-r--r-- 1 elastic users 2713627483 Feb 16 20:11 _bay.cfs
-rw-r--r-- 1 elastic users 414 Feb 16 20:11 _bay.si
-rw-r--r-- 1 elastic users 405 Feb 16 20:44 _c8l.cfe
-rw-r--r-- 1 elastic users 2819381164 Feb 16 20:44 _c8l.cfs
-rw-r--r-- 1 elastic users 414 Feb 16 20:44 _c8l.si
-rw-r--r-- 1 elastic users 405 Feb 16 21:14 _d3g.cfe
-rw-r--r-- 1 elastic users 2779167612 Feb 16 21:14 _d3g.cfs
-rw-r--r-- 1 elastic users 414 Feb 16 21:14 _d3g.si
-rw-r--r-- 1 elastic users 911 Feb 16 21:33 _dtl.dii
-rw-r--r-- 1 elastic users 95104188 Feb 16 21:33 _dtl.dim
-rw-r--r-- 1 elastic users 1298115129 Feb 16 21:24 _dtl.fdt
-rw-r--r-- 1 elastic users 680256 Feb 16 21:24 _dtl.fdx
-rw-r--r-- 1 elastic users 102608 Feb 16 21:41 _dtl.fnm
-rw-r--r-- 1 elastic users 2223822380 Feb 16 21:41 _dtl.nvd
-rw-r--r-- 1 elastic users 4823 Feb 16 21:41 _dtl.nvm
-rw-r--r-- 1 elastic users 579 Feb 16 21:41 _dtl.si
-rw-r--r-- 1 elastic users 372604991 Feb 16 21:29 _dtl_Lucene50_0.doc
-rw-r--r-- 1 elastic users 751337673 Feb 16 21:29 _dtl_Lucene50_0.pos
-rw-r--r-- 1 elastic users 297921379 Feb 16 21:29 _dtl_Lucene50_0.tim
-rw-r--r-- 1 elastic users 5491090 Feb 16 21:29 _dtl_Lucene50_0.tip
-rw-r--r-- 1 elastic users 545587483 Feb 16 21:33 _dtl_Lucene54_0.dvd
-rw-r--r-- 1 elastic users 118020 Feb 16 21:33 _dtl_Lucene54_0.dvm
-rw-r--r-- 1 elastic users 405 Feb 16 22:34 _ffe.cfe
-rw-r--r-- 1 elastic users 3088004914 Feb 16 22:34 _ffe.cfs
-rw-r--r-- 1 elastic users 414 Feb 16 22:34 _ffe.si
-rw-r--r-- 1 elastic users 405 Feb 16 23:36 _gsm.cfe
-rw-r--r-- 1 elastic users 5443707455 Feb 16 23:36 _gsm.cfs
-rw-r--r-- 1 elastic users 413 Feb 16 23:36 _gsm.si
-rw-r--r-- 1 elastic users 405 Feb 16 23:42 _hgq.cfe

-rw-r--r-- 1 elastic users 3023218001 Feb 16 23:42 _hgq.cfs
-rw-r--r-- 1 elastic users 414 Feb 16 23:42 _hgq.si
-rw-r--r-- 1 elastic users 405 Feb 17 01:07 _jht.cfe
-rw-r--r-- 1 elastic users 5443930694 Feb 17 01:07 _jht.cfs
-rw-r--r-- 1 elastic users 413 Feb 17 01:07 _jht.si
-rw-r--r-- 1 elastic users 405 Feb 17 01:07 _k0w.cfe
-rw-r--r-- 1 elastic users 2816537526 Feb 17 01:07 _k0w.cfs
-rw-r--r-- 1 elastic users 414 Feb 17 01:07 _k0w.si
-rw-r--r-- 1 elastic users 405 Feb 17 01:42 _ksd.cfe
-rw-r--r-- 1 elastic users 3365319099 Feb 17 01:42 _ksd.cfs
-rw-r--r-- 1 elastic users 414 Feb 17 01:42 _ksd.si
-rw-r--r-- 1 elastic users 405 Feb 17 02:32 _mci.cfe
-rw-r--r-- 1 elastic users 3016910632 Feb 17 02:32 _mci.cfs
-rw-r--r-- 1 elastic users 414 Feb 17 02:32 _mci.si
-rw-r--r-- 1 elastic users 405 Feb 20 11:15 _nce.cfe
-rw-r--r-- 1 elastic users 3141941915 Feb 20 11:15 _nce.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 11:15 _nce.si
-rw-r--r-- 1 elastic users 405 Feb 20 12:15 _og5.cfe
-rw-r--r-- 1 elastic users 2956728705 Feb 20 12:15 _og5.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 12:15 _og5.si
-rw-r--r-- 1 elastic users 405 Feb 20 18:39 _pt4.cfe
-rw-r--r-- 1 elastic users 5515079868 Feb 20 18:39 _pt4.cfs
-rw-r--r-- 1 elastic users 413 Feb 20 18:39 _pt4.si
-rw-r--r-- 1 elastic users 405 Feb 20 18:44 _r5b.cfe
-rw-r--r-- 1 elastic users 107720288 Feb 20 18:44 _r5b.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 18:44 _r5b.si
-rw-r--r-- 1 elastic users 405 Feb 20 19:37 _rkk.cfe
-rw-r--r-- 1 elastic users 5537257697 Feb 20 19:37 _rkk.cfs
-rw-r--r-- 1 elastic users 413 Feb 20 19:37 _rkk.si
-rw-r--r-- 1 elastic users 405 Feb 20 20:46 _tmz.cfe
-rw-r--r-- 1 elastic users 5460057618 Feb 20 20:46 _tmz.cfs
-rw-r--r-- 1 elastic users 413 Feb 20 20:46 _tmz.si
-rw-r--r-- 1 elastic users 405 Feb 20 21:51 _vm9.cfe
-rw-r--r-- 1 elastic users 5432682464 Feb 20 21:51 _vm9.cfs
-rw-r--r-- 1 elastic users 413 Feb 20 21:51 _vm9.si
-rw-r--r-- 1 elastic users 405 Feb 20 21:19 _vr7.cfe
-rw-r--r-- 1 elastic users 125937560 Feb 20 21:19 _vr7.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 21:19 _vr7.si
-rw-r--r-- 1 elastic users 405 Feb 20 21:23 _vvm.cfe
-rw-r--r-- 1 elastic users 92869495 Feb 20 21:23 _vvm.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 21:23 _vvm.si
-rw-r--r-- 1 elastic users 405 Feb 20 21:40 _web.cfe
-rw-r--r-- 1 elastic users 116394234 Feb 20 21:40 _web.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 21:40 _web.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:43 _wzm.cfe
-rw-r--r-- 1 elastic users 5672099802 Feb 20 22:43 _wzm.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:43 _wzm.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:09 _x26.cfe
-rw-r--r-- 1 elastic users 441105760 Feb 20 22:09 _x26.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:09 _x26.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:12 _x8t.cfe
-rw-r--r-- 1 elastic users 52195407 Feb 20 22:12 _x8t.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:12 _x8t.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:19 _xcf.cfe
-rw-r--r-- 1 elastic users 368901287 Feb 20 22:19 _xcf.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:19 _xcf.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:52 _xsu.cfe
-rw-r--r-- 1 elastic users 2802951333 Feb 20 22:52 _xsu.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:52 _xsu.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:38 _xvo.cfe
-rw-r--r-- 1 elastic users 326759564 Feb 20 22:38 _xvo.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:38 _xvo.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:38 _xxw.cfe
-rw-r--r-- 1 elastic users 40668854 Feb 20 22:38 _xxw.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:38 _xxw.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:40 _xyp.cfe
-rw-r--r-- 1 elastic users 250240957 Feb 20 22:40 _xyp.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:40 _xyp.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:42 _y1x.cfe
-rw-r--r-- 1 elastic users 4322627 Feb 20 22:42 _y1x.cfs
-rw-r--r-- 1 elastic users 376 Feb 20 22:42 _y1x.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:43 _y22.cfe
-rw-r--r-- 1 elastic users 217202481 Feb 20 22:43 _y22.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:43 _y22.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:46 _y3x.cfe
-rw-r--r-- 1 elastic users 319719526 Feb 20 22:46 _y3x.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:46 _y3x.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:45 _y53.cfe
-rw-r--r-- 1 elastic users 18434066 Feb 20 22:45 _y53.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:45 _y53.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:48 _y6p.cfe
-rw-r--r-- 1 elastic users 252292135 Feb 20 22:48 _y6p.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:48 _y6p.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:46 _y6x.cfe
-rw-r--r-- 1 elastic users 4402381 Feb 20 22:46 _y6x.cfs
-rw-r--r-- 1 elastic users 376 Feb 20 22:46 _y6x.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:47 _y71.cfe
-rw-r--r-- 1 elastic users 18879948 Feb 20 22:47 _y71.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:47 _y71.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:47 _y7a.cfe
-rw-r--r-- 1 elastic users 25713502 Feb 20 22:47 _y7a.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:47 _y7a.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:47 _y7l.cfe
-rw-r--r-- 1 elastic users 29078506 Feb 20 22:47 _y7l.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:47 _y7l.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:47 _y7v.cfe
-rw-r--r-- 1 elastic users 23622506 Feb 20 22:47 _y7v.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:47 _y7v.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:48 _y84.cfe
-rw-r--r-- 1 elastic users 21882280 Feb 20 22:48 _y84.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:48 _y84.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:48 _y8e.cfe
-rw-r--r-- 1 elastic users 22294185 Feb 20 22:48 _y8e.cfs

-rw-r--r-- 1 elastic users 414 Feb 20 22:48 _y8e.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:48 _y8n.cfe
-rw-r--r-- 1 elastic users 28037163 Feb 20 22:48 _y8n.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:48 _y8n.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:48 _y8x.cfe
-rw-r--r-- 1 elastic users 1875661 Feb 20 22:48 _y8x.cfs
-rw-r--r-- 1 elastic users 376 Feb 20 22:48 _y8x.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:48 _y8y.cfe
-rw-r--r-- 1 elastic users 27701452 Feb 20 22:48 _y8y.cfs
-rw-r--r-- 1 elastic users 414 Feb 20 22:48 _y8y.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:48 _y8z.cfe
-rw-r--r-- 1 elastic users 3425510 Feb 20 22:48 _y8z.cfs
-rw-r--r-- 1 elastic users 376 Feb 20 22:48 _y8z.si
-rw-r--r-- 1 elastic users 405 Feb 20 22:48 _y90.cfe
-rw-r--r-- 1 elastic users 1027729 Feb 20 22:48 _y90.cfs
-rw-r--r-- 1 elastic users 376 Feb 20 22:48 _y90.si
-rw-r--r-- 1 elastic users 3557 Feb 22 14:16 segments_5g
-rw-r--r-- 1 elastic users 0 Feb 16 13:28 write.lock

Проще было бы просто создать gist на https://gist.github.com/

На этом уровне ничего в глаза не бросается. Вы не могли бы запустить вот эту утилиту на той-же директории. Она должна вывести используемый размер на уровне поля.

похоже, мне ее придется немного переписать. К сожалению, места в tmp не хватило, у меня было там примерно 35 ГБ.
Даже не знаю, на какой возможный размер ориентироваться при выборе объема для этой утилиты, с учетом того, что размер самого индекса порядка 513 ГБ

Желательно что-нибудь поменьше. Утилита эта очень тихоходная.

хм, свалился с ошибкой:
Exception in thread "main" java.lang.UnsupportedOperationException: this codec can only be used for reading
at org.apache.lucene.codecs.lucene50.Lucene50SegmentInfoFormat.write(Lucene50SegmentInfoFormat.java:92)
at org.apache.lucene.index.IndexWriter.addIndexes(IndexWriter.java:2854)
at DiskUsage.main(DiskUsage.java:98)

может опять место закончилось на диске?

валится на вот этой строчке
writer.addIndexes(inputs);
место на диске должно было быть, я отслеживал расход пространства

плюс, судя по всему вот это - org.apache.lucene.codecs.lucene50.Lucene50SegmentInfoFormat - deprecated

Да, прошу прощения. Утилита эта устарела. Я выложил обновленную версию на https://gist.github.com/imotov/7a36dd1c779c050669de9daaaecd1ce1 Попробуйте еще раз. У вас какая версия elasticsearch, кстати?

Версия Elastic 5.2.1, соответственно, библиотеки я брал lucene 6.4.1