Dmytro  
                
               
                 
              
                  
                    February 18, 2017, 11:48am
                   
                   
              1 
               
             
            
              Здравствуйте! 
После перехода на пятую версию Эластика, при индексации одних и тех же данных, обнаружили, что размер индекса стал больше от 1,5 до 2 раз.
В чем может быть причина такого резкого увеличения размера индекса?
Спасибо.
С уважением, 
Дмитрий.
             
            
               
               
               
            
            
           
          
            
              
                Igor_Motov  
                (Igor Motov)
               
              
                  
                    February 18, 2017,  4:17pm
                   
                   
              2 
               
             
            
              От меппинга зависит. Вы меппинг сами задавали или он автоматически был создан?  Надо сравнить как меппинг выглядел до перехода на пятую версию и после. В 5.0 произошли существенные изменения. Например, текстовые поля теперь индексируются дважды если вы для них тип сами не указали.
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 19, 2017,  5:27pm
                   
                   
              3 
               
             
            
              Игорь, здравствуйте!
Мы делали разные варианты: Keyword и text, в первом случае размер вырос раза в полтора, во втором - в два.
Это нормальное поведение системы?
             
            
               
               
               
            
            
           
          
            
              
                Igor_Motov  
                (Igor Motov)
               
              
                  
                    February 20, 2017,  1:20pm
                   
                   
              4 
               
             
            
              А какой маппинг был у этих полей в 2.x? Вы не могли бы также прислать результат ls -l в /data/nodes/0/indices/UUID-ИНДЕКСА/0/index в 5.x и то же самое в одной из шард в 2.x. Хотелось бы посмотреть в какой тип файлов забрал это место. UUID-ИНДЕКСА можно получить с помощью команды
curl localhost:9200/_cat/indices?v
 
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 21, 2017, 10:07am
                   
                   
              5 
               
             
            
              Со второй версией уже сложнее, снесли часть данных, но вопрос довольно серьезный, поэтому в ближайшее время реанимируем вторую версию и проверим
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 22, 2017,  9:07am
                   
                   
              6 
               
             
            
              Игорь, здравствуйте! 
развернуть 2-й эластик нам не удалось, однако, в ходе анализа данных, обнаружили следующую вещь, которая может быть даст ответ на вопрос, почему так много стало использоваться дискового пространства.
У нас есть два индекса, один содержит набор документов, другой, скажем так, идентификаторы этих документов. Число документов в одном и другом индексах должно быть одинаково
Теперь я хочу предоставить результат ряда запросов, которые дают немного странную для нас картину ( на втором эластике такого не наблюдалось)
итак,
Количество документов через _count  в хранилище документов 
curl -XGET 'http://localhost:9200/doc_index/_count?pretty ' 
{ 
"count" : 35652130, 
"_shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 
} 
} 
 
2 Количество документов через _count в хранилище ссылок 
curl -XGET 'http://localhost:9200/doc_index_check/_count?pretty ' 
{ 
"count" : 35652130, 
"_shards" : { 
"total" : 1, 
"successful" : 1, 
"failed" : 0 
} 
} 
Как видим, пока все хорошо. 
Но вот результат другой команды: 
3. 
curl -XGET 'http://localhost:9200/_cat/indices/doc_index/?'  
yellow open fns_ul En6Kuhw5TFuIXbwu9jwqiA 5 1 469280725  0 513.1gb 513.1gb
как мы видим, количество документов, согласно документации   - 469280725, что более чем на порядок результата в пункте 1.
такая же команда для  doc_index_check 
4. 
curl -XGET 'http://localhost:9200/_cat/indices/doc_index_check/?'  
yellow open fns_ul_check hPs0X09RQ-yS7uo3Hw-gpw 1 1 35652130 0 2gb 2gb 
дает корректное число документов.
Можно ли как-то объяснить такое расхождение по количеству документов в индексе при выполнении разных команд?
Спасибо.
             
            
               
               
               
            
            
           
          
            
              
                Igor_Motov  
                (Igor Motov)
               
              
                  
                    February 22, 2017,  1:14pm
                   
                   
              7 
               
             
            
              Обычно, это происходить при использовании полей с типом nested, которые индексируются как отдельные скрытые документы. Только эта часть между 2.x и 5.x никак не изменялась. Если только вы меппинг при переходе на 5.x не изменили самостоятельно.
Если сравнить сложно с 2.x, то давайте хотя бы посмотрим что у вас с файлами в 5.x творится.
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 22, 2017,  5:50pm
                   
                   
              8 
               
             
            
              странно, текст не могу прикрепить,
total 107548312 
-rw-r--r-- 1 elastic users        863 Feb 16 14:13 _11k.dii 
-rw-r--r-- 1 elastic users   53374717 Feb 16 14:13 _11k.dim 
-rw-r--r-- 1 elastic users  665875785 Feb 16 14:09 _11k.fdt 
-rw-r--r-- 1 elastic users     361441 Feb 16 14:09 _11k.fdx 
-rw-r--r-- 1 elastic users     100262 Feb 16 14:17 _11k.fnm 
-rw-r--r-- 1 elastic users 1087298523 Feb 16 14:17 _11k.nvd 
-rw-r--r-- 1 elastic users       4746 Feb 16 14:17 _11k.nvm 
-rw-r--r-- 1 elastic users        579 Feb 16 14:17 _11k.si 
-rw-r--r-- 1 elastic users  192443175 Feb 16 14:11 _11k_Lucene50_0.doc 
-rw-r--r-- 1 elastic users  384507195 Feb 16 14:11 _11k_Lucene50_0.pos 
-rw-r--r-- 1 elastic users  166170076 Feb 16 14:11 _11k_Lucene50_0.tim 
-rw-r--r-- 1 elastic users    2994188 Feb 16 14:11 _11k_Lucene50_0.tip 
-rw-r--r-- 1 elastic users  260594537 Feb 16 14:13 _11k_Lucene54_0.dvd 
-rw-r--r-- 1 elastic users      70603 Feb 16 14:13 _11k_Lucene54_0.dvm 
-rw-r--r-- 1 elastic users        827 Feb 16 15:28 _32f.dii 
-rw-r--r-- 1 elastic users  100968827 Feb 16 15:28 _32f.dim 
-rw-r--r-- 1 elastic users 1331715401 Feb 16 15:19 _32f.fdt 
-rw-r--r-- 1 elastic users     751721 Feb 16 15:19 _32f.fdx 
-rw-r--r-- 1 elastic users      92504 Feb 16 15:35 _32f.fnm 
-rw-r--r-- 1 elastic users 1987287788 Feb 16 15:35 _32f.nvd 
-rw-r--r-- 1 elastic users       4361 Feb 16 15:35 _32f.nvm 
-rw-r--r-- 1 elastic users        578 Feb 16 15:35 _32f.si 
-rw-r--r-- 1 elastic users  394644506 Feb 16 15:23 _32f_Lucene50_0.doc 
-rw-r--r-- 1 elastic users  777499806 Feb 16 15:23 _32f_Lucene50_0.pos 
-rw-r--r-- 1 elastic users  341583556 Feb 16 15:23 _32f_Lucene50_0.tim 
-rw-r--r-- 1 elastic users    6151621 Feb 16 15:23 _32f_Lucene50_0.tip 
-rw-r--r-- 1 elastic users  532598618 Feb 16 15:28 _32f_Lucene54_0.dvd 
-rw-r--r-- 1 elastic users      98753 Feb 16 15:28 _32f_Lucene54_0.dvm 
-rw-r--r-- 1 elastic users        839 Feb 16 16:30 _4y3.dii 
-rw-r--r-- 1 elastic users  102941301 Feb 16 16:30 _4y3.dim 
-rw-r--r-- 1 elastic users 1350455757 Feb 16 16:20 _4y3.fdt 
-rw-r--r-- 1 elastic users     762197 Feb 16 16:20 _4y3.fdx 
-rw-r--r-- 1 elastic users      95565 Feb 16 16:37 _4y3.fnm 
-rw-r--r-- 1 elastic users 2059487748 Feb 16 16:37 _4y3.nvd 
-rw-r--r-- 1 elastic users       4515 Feb 16 16:37 _4y3.nvm 
-rw-r--r-- 1 elastic users        579 Feb 16 16:37 _4y3.si 
-rw-r--r-- 1 elastic users  401261866 Feb 16 16:25 _4y3_Lucene50_0.doc 
-rw-r--r-- 1 elastic users  781331543 Feb 16 16:25 _4y3_Lucene50_0.pos 
-rw-r--r-- 1 elastic users  336393309 Feb 16 16:25 _4y3_Lucene50_0.tim 
-rw-r--r-- 1 elastic users    6062754 Feb 16 16:25 _4y3_Lucene50_0.tip 
-rw-r--r-- 1 elastic users  506168250 Feb 16 16:29 _4y3_Lucene54_0.dvd 
-rw-r--r-- 1 elastic users     102282 Feb 16 16:29 _4y3_Lucene54_0.dvm 
-rw-r--r-- 1 elastic users        790 Feb 16 16:45 _5n2.dii 
-rw-r--r-- 1 elastic users   55149558 Feb 16 16:45 _5n2.dim 
-rw-r--r-- 1 elastic users  680897205 Feb 16 16:41 _5n2.fdt 
-rw-r--r-- 1 elastic users     378313 Feb 16 16:41 _5n2.fdx 
-rw-r--r-- 1 elastic users      90864 Feb 16 16:49 _5n2.fnm 
-rw-r--r-- 1 elastic users 1025868497 Feb 16 16:49 _5n2.nvd 
-rw-r--r-- 1 elastic users       4306 Feb 16 16:49 _5n2.nvm 
-rw-r--r-- 1 elastic users        579 Feb 16 16:49 _5n2.si 
-rw-r--r-- 1 elastic users  203198305 Feb 16 16:43 _5n2_Lucene50_0.doc 
-rw-r--r-- 1 elastic users  386711851 Feb 16 16:43 _5n2_Lucene50_0.pos 
-rw-r--r-- 1 elastic users  166087370 Feb 16 16:43 _5n2_Lucene50_0.tim 
-rw-r--r-- 1 elastic users    2997044 Feb 16 16:43 _5n2_Lucene50_0.tip 
-rw-r--r-- 1 elastic users  256561333 Feb 16 16:45 _5n2_Lucene54_0.dvd 
-rw-r--r-- 1 elastic users      57366 Feb 16 16:45 _5n2_Lucene54_0.dvm 
-rw-r--r-- 1 elastic users        881 Feb 16 17:35 _72k.dii
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 22, 2017,  5:51pm
                   
                   
              9 
               
             
            
              -rw-r--r-- 1 elastic users   53911070 Feb 16 17:35 _72k.dim 
-rw-r--r-- 1 elastic users  677165971 Feb 16 17:30 _72k.fdt 
-rw-r--r-- 1 elastic users     359606 Feb 16 17:30 _72k.fdx 
-rw-r--r-- 1 elastic users     100041 Feb 16 17:39 _72k.fnm 
-rw-r--r-- 1 elastic users 1141850083 Feb 16 17:39 _72k.nvd 
-rw-r--r-- 1 elastic users       4713 Feb 16 17:39 _72k.nvm 
-rw-r--r-- 1 elastic users        579 Feb 16 17:39 _72k.si 
-rw-r--r-- 1 elastic users  191564549 Feb 16 17:32 _72k_Lucene50_0.doc 
-rw-r--r-- 1 elastic users  402666729 Feb 16 17:32 _72k_Lucene50_0.pos 
-rw-r--r-- 1 elastic users  174508557 Feb 16 17:32 _72k_Lucene50_0.tim 
-rw-r--r-- 1 elastic users    3177916 Feb 16 17:32 _72k_Lucene50_0.tip 
-rw-r--r-- 1 elastic users  288533483 Feb 16 17:35 _72k_Lucene54_0.dvd 
-rw-r--r-- 1 elastic users      72775 Feb 16 17:35 _72k_Lucene54_0.dvm 
-rw-r--r-- 1 elastic users        887 Feb 16 18:26 _8cy.dii 
-rw-r--r-- 1 elastic users   97227231 Feb 16 18:26 _8cy.dim 
-rw-r--r-- 1 elastic users 1309150324 Feb 16 18:16 _8cy.fdt 
-rw-r--r-- 1 elastic users     719041 Feb 16 18:16 _8cy.fdx 
-rw-r--r-- 1 elastic users     101518 Feb 16 18:34 _8cy.fnm 
-rw-r--r-- 1 elastic users 2108873261 Feb 16 18:34 _8cy.nvd 
-rw-r--r-- 1 elastic users       4790 Feb 16 18:34 _8cy.nvm 
-rw-r--r-- 1 elastic users        578 Feb 16 18:34 _8cy.si 
-rw-r--r-- 1 elastic users  384780533 Feb 16 18:21 _8cy_Lucene50_0.doc 
-rw-r--r-- 1 elastic users  745263394 Feb 16 18:21 _8cy_Lucene50_0.pos 
-rw-r--r-- 1 elastic users  302213902 Feb 16 18:21 _8cy_Lucene50_0.tim 
-rw-r--r-- 1 elastic users    5541967 Feb 16 18:21 _8cy_Lucene50_0.tip 
-rw-r--r-- 1 elastic users  521172940 Feb 16 18:25 _8cy_Lucene54_0.dvd 
-rw-r--r-- 1 elastic users     110844 Feb 16 18:25 _8cy_Lucene54_0.dvm 
-rw-r--r-- 1 elastic users        881 Feb 16 19:10 _9ob.dii 
-rw-r--r-- 1 elastic users   98223828 Feb 16 19:10 _9ob.dim 
-rw-r--r-- 1 elastic users 1290682957 Feb 16 19:01 _9ob.fdt 
-rw-r--r-- 1 elastic users     703550 Feb 16 19:01 _9ob.fdx 
-rw-r--r-- 1 elastic users      98503 Feb 16 19:18 _9ob.fnm 
-rw-r--r-- 1 elastic users 2150518946 Feb 16 19:18 _9ob.nvd 
-rw-r--r-- 1 elastic users       4625 Feb 16 19:18 _9ob.nvm 
-rw-r--r-- 1 elastic users        579 Feb 16 19:18 _9ob.si 
-rw-r--r-- 1 elastic users  379550353 Feb 16 19:06 _9ob_Lucene50_0.doc 
-rw-r--r-- 1 elastic users  748511134 Feb 16 19:06 _9ob_Lucene50_0.pos 
-rw-r--r-- 1 elastic users  311397923 Feb 16 19:06 _9ob_Lucene50_0.tim 
-rw-r--r-- 1 elastic users    5708998 Feb 16 19:06 _9ob_Lucene50_0.tip 
-rw-r--r-- 1 elastic users  561676297 Feb 16 19:10 _9ob_Lucene54_0.dvd 
-rw-r--r-- 1 elastic users     115605 Feb 16 19:10 _9ob_Lucene54_0.dvm 
-rw-r--r-- 1 elastic users        405 Feb 16 20:11 _bay.cfe 
-rw-r--r-- 1 elastic users 2713627483 Feb 16 20:11 _bay.cfs 
-rw-r--r-- 1 elastic users        414 Feb 16 20:11 _bay.si 
-rw-r--r-- 1 elastic users        405 Feb 16 20:44 _c8l.cfe 
-rw-r--r-- 1 elastic users 2819381164 Feb 16 20:44 _c8l.cfs 
-rw-r--r-- 1 elastic users        414 Feb 16 20:44 _c8l.si 
-rw-r--r-- 1 elastic users        405 Feb 16 21:14 _d3g.cfe 
-rw-r--r-- 1 elastic users 2779167612 Feb 16 21:14 _d3g.cfs 
-rw-r--r-- 1 elastic users        414 Feb 16 21:14 _d3g.si 
-rw-r--r-- 1 elastic users        911 Feb 16 21:33 _dtl.dii 
-rw-r--r-- 1 elastic users   95104188 Feb 16 21:33 _dtl.dim 
-rw-r--r-- 1 elastic users 1298115129 Feb 16 21:24 _dtl.fdt 
-rw-r--r-- 1 elastic users     680256 Feb 16 21:24 _dtl.fdx 
-rw-r--r-- 1 elastic users     102608 Feb 16 21:41 _dtl.fnm 
-rw-r--r-- 1 elastic users 2223822380 Feb 16 21:41 _dtl.nvd 
-rw-r--r-- 1 elastic users       4823 Feb 16 21:41 _dtl.nvm 
-rw-r--r-- 1 elastic users        579 Feb 16 21:41 _dtl.si 
-rw-r--r-- 1 elastic users  372604991 Feb 16 21:29 _dtl_Lucene50_0.doc 
-rw-r--r-- 1 elastic users  751337673 Feb 16 21:29 _dtl_Lucene50_0.pos 
-rw-r--r-- 1 elastic users  297921379 Feb 16 21:29 _dtl_Lucene50_0.tim 
-rw-r--r-- 1 elastic users    5491090 Feb 16 21:29 _dtl_Lucene50_0.tip 
-rw-r--r-- 1 elastic users  545587483 Feb 16 21:33 _dtl_Lucene54_0.dvd 
-rw-r--r-- 1 elastic users     118020 Feb 16 21:33 _dtl_Lucene54_0.dvm 
-rw-r--r-- 1 elastic users        405 Feb 16 22:34 _ffe.cfe 
-rw-r--r-- 1 elastic users 3088004914 Feb 16 22:34 _ffe.cfs 
-rw-r--r-- 1 elastic users        414 Feb 16 22:34 _ffe.si 
-rw-r--r-- 1 elastic users        405 Feb 16 23:36 _gsm.cfe 
-rw-r--r-- 1 elastic users 5443707455 Feb 16 23:36 _gsm.cfs 
-rw-r--r-- 1 elastic users        413 Feb 16 23:36 _gsm.si 
-rw-r--r-- 1 elastic users        405 Feb 16 23:42 _hgq.cfe
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 22, 2017,  5:51pm
                   
                   
              10 
               
             
            
              -rw-r--r-- 1 elastic users 3023218001 Feb 16 23:42 _hgq.cfs 
-rw-r--r-- 1 elastic users        414 Feb 16 23:42 _hgq.si 
-rw-r--r-- 1 elastic users        405 Feb 17 01:07 _jht.cfe 
-rw-r--r-- 1 elastic users 5443930694 Feb 17 01:07 _jht.cfs 
-rw-r--r-- 1 elastic users        413 Feb 17 01:07 _jht.si 
-rw-r--r-- 1 elastic users        405 Feb 17 01:07 _k0w.cfe 
-rw-r--r-- 1 elastic users 2816537526 Feb 17 01:07 _k0w.cfs 
-rw-r--r-- 1 elastic users        414 Feb 17 01:07 _k0w.si 
-rw-r--r-- 1 elastic users        405 Feb 17 01:42 _ksd.cfe 
-rw-r--r-- 1 elastic users 3365319099 Feb 17 01:42 _ksd.cfs 
-rw-r--r-- 1 elastic users        414 Feb 17 01:42 _ksd.si 
-rw-r--r-- 1 elastic users        405 Feb 17 02:32 _mci.cfe 
-rw-r--r-- 1 elastic users 3016910632 Feb 17 02:32 _mci.cfs 
-rw-r--r-- 1 elastic users        414 Feb 17 02:32 _mci.si 
-rw-r--r-- 1 elastic users        405 Feb 20 11:15 _nce.cfe 
-rw-r--r-- 1 elastic users 3141941915 Feb 20 11:15 _nce.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 11:15 _nce.si 
-rw-r--r-- 1 elastic users        405 Feb 20 12:15 _og5.cfe 
-rw-r--r-- 1 elastic users 2956728705 Feb 20 12:15 _og5.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 12:15 _og5.si 
-rw-r--r-- 1 elastic users        405 Feb 20 18:39 _pt4.cfe 
-rw-r--r-- 1 elastic users 5515079868 Feb 20 18:39 _pt4.cfs 
-rw-r--r-- 1 elastic users        413 Feb 20 18:39 _pt4.si 
-rw-r--r-- 1 elastic users        405 Feb 20 18:44 _r5b.cfe 
-rw-r--r-- 1 elastic users  107720288 Feb 20 18:44 _r5b.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 18:44 _r5b.si 
-rw-r--r-- 1 elastic users        405 Feb 20 19:37 _rkk.cfe 
-rw-r--r-- 1 elastic users 5537257697 Feb 20 19:37 _rkk.cfs 
-rw-r--r-- 1 elastic users        413 Feb 20 19:37 _rkk.si 
-rw-r--r-- 1 elastic users        405 Feb 20 20:46 _tmz.cfe 
-rw-r--r-- 1 elastic users 5460057618 Feb 20 20:46 _tmz.cfs 
-rw-r--r-- 1 elastic users        413 Feb 20 20:46 _tmz.si 
-rw-r--r-- 1 elastic users        405 Feb 20 21:51 _vm9.cfe 
-rw-r--r-- 1 elastic users 5432682464 Feb 20 21:51 _vm9.cfs 
-rw-r--r-- 1 elastic users        413 Feb 20 21:51 _vm9.si 
-rw-r--r-- 1 elastic users        405 Feb 20 21:19 _vr7.cfe 
-rw-r--r-- 1 elastic users  125937560 Feb 20 21:19 _vr7.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 21:19 _vr7.si 
-rw-r--r-- 1 elastic users        405 Feb 20 21:23 _vvm.cfe 
-rw-r--r-- 1 elastic users   92869495 Feb 20 21:23 _vvm.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 21:23 _vvm.si 
-rw-r--r-- 1 elastic users        405 Feb 20 21:40 _web.cfe 
-rw-r--r-- 1 elastic users  116394234 Feb 20 21:40 _web.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 21:40 _web.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:43 _wzm.cfe 
-rw-r--r-- 1 elastic users 5672099802 Feb 20 22:43 _wzm.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:43 _wzm.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:09 _x26.cfe 
-rw-r--r-- 1 elastic users  441105760 Feb 20 22:09 _x26.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:09 _x26.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:12 _x8t.cfe 
-rw-r--r-- 1 elastic users   52195407 Feb 20 22:12 _x8t.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:12 _x8t.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:19 _xcf.cfe 
-rw-r--r-- 1 elastic users  368901287 Feb 20 22:19 _xcf.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:19 _xcf.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:52 _xsu.cfe 
-rw-r--r-- 1 elastic users 2802951333 Feb 20 22:52 _xsu.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:52 _xsu.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:38 _xvo.cfe 
-rw-r--r-- 1 elastic users  326759564 Feb 20 22:38 _xvo.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:38 _xvo.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:38 _xxw.cfe 
-rw-r--r-- 1 elastic users   40668854 Feb 20 22:38 _xxw.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:38 _xxw.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:40 _xyp.cfe 
-rw-r--r-- 1 elastic users  250240957 Feb 20 22:40 _xyp.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:40 _xyp.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:42 _y1x.cfe 
-rw-r--r-- 1 elastic users    4322627 Feb 20 22:42 _y1x.cfs 
-rw-r--r-- 1 elastic users        376 Feb 20 22:42 _y1x.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:43 _y22.cfe 
-rw-r--r-- 1 elastic users  217202481 Feb 20 22:43 _y22.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:43 _y22.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:46 _y3x.cfe 
-rw-r--r-- 1 elastic users  319719526 Feb 20 22:46 _y3x.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:46 _y3x.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:45 _y53.cfe 
-rw-r--r-- 1 elastic users   18434066 Feb 20 22:45 _y53.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:45 _y53.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:48 _y6p.cfe 
-rw-r--r-- 1 elastic users  252292135 Feb 20 22:48 _y6p.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:48 _y6p.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:46 _y6x.cfe 
-rw-r--r-- 1 elastic users    4402381 Feb 20 22:46 _y6x.cfs 
-rw-r--r-- 1 elastic users        376 Feb 20 22:46 _y6x.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:47 _y71.cfe 
-rw-r--r-- 1 elastic users   18879948 Feb 20 22:47 _y71.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:47 _y71.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:47 _y7a.cfe 
-rw-r--r-- 1 elastic users   25713502 Feb 20 22:47 _y7a.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:47 _y7a.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:47 _y7l.cfe 
-rw-r--r-- 1 elastic users   29078506 Feb 20 22:47 _y7l.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:47 _y7l.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:47 _y7v.cfe 
-rw-r--r-- 1 elastic users   23622506 Feb 20 22:47 _y7v.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:47 _y7v.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:48 _y84.cfe 
-rw-r--r-- 1 elastic users   21882280 Feb 20 22:48 _y84.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:48 _y84.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:48 _y8e.cfe 
-rw-r--r-- 1 elastic users   22294185 Feb 20 22:48 _y8e.cfs
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 22, 2017,  5:51pm
                   
                   
              11 
               
             
            
              -rw-r--r-- 1 elastic users        414 Feb 20 22:48 _y8e.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:48 _y8n.cfe 
-rw-r--r-- 1 elastic users   28037163 Feb 20 22:48 _y8n.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:48 _y8n.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:48 _y8x.cfe 
-rw-r--r-- 1 elastic users    1875661 Feb 20 22:48 _y8x.cfs 
-rw-r--r-- 1 elastic users        376 Feb 20 22:48 _y8x.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:48 _y8y.cfe 
-rw-r--r-- 1 elastic users   27701452 Feb 20 22:48 _y8y.cfs 
-rw-r--r-- 1 elastic users        414 Feb 20 22:48 _y8y.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:48 _y8z.cfe 
-rw-r--r-- 1 elastic users    3425510 Feb 20 22:48 _y8z.cfs 
-rw-r--r-- 1 elastic users        376 Feb 20 22:48 _y8z.si 
-rw-r--r-- 1 elastic users        405 Feb 20 22:48 _y90.cfe 
-rw-r--r-- 1 elastic users    1027729 Feb 20 22:48 _y90.cfs 
-rw-r--r-- 1 elastic users        376 Feb 20 22:48 _y90.si 
-rw-r--r-- 1 elastic users       3557 Feb 22 14:16 segments_5g 
-rw-r--r-- 1 elastic users          0 Feb 16 13:28 write.lock
             
            
               
               
               
            
            
           
          
            
              
                Igor_Motov  
                (Igor Motov)
               
              
                  
                    February 22, 2017,  5:56pm
                   
                   
              12 
               
             
            
              Проще было бы просто создать gist на https://gist.github.com/ 
             
            
               
               
               
            
            
           
          
            
              
                Igor_Motov  
                (Igor Motov)
               
              
                  
                    February 22, 2017,  7:32pm
                   
                   
              13 
               
             
            
              На этом уровне ничего в глаза не бросается. Вы не могли бы запустить вот эту утилиту  на той-же директории. Она должна вывести используемый размер на уровне поля.
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 22, 2017,  9:52pm
                   
                   
              14 
               
             
            
              похоже, мне ее придется немного переписать. К сожалению, места в tmp не хватило, у меня было там примерно 35 ГБ. 
Даже не знаю, на какой возможный размер ориентироваться при выборе объема для этой утилиты, с учетом того, что размер самого индекса порядка 513 ГБ
             
            
               
               
               
            
            
           
          
            
              
                Igor_Motov  
                (Igor Motov)
               
              
                  
                    February 22, 2017, 10:20pm
                   
                   
              15 
               
             
            
              Желательно что-нибудь поменьше. Утилита эта очень тихоходная.
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 23, 2017,  9:03am
                   
                   
              16 
               
             
            
              хм, свалился с ошибкой: 
Exception in thread "main" java.lang.UnsupportedOperationException: this codec can only be used for reading 
at org.apache.lucene.codecs.lucene50.Lucene50SegmentInfoFormat.write(Lucene50SegmentInfoFormat.java:92) 
at org.apache.lucene.index.IndexWriter.addIndexes(IndexWriter.java:2854) 
at DiskUsage.main(DiskUsage.java:98)
может опять место закончилось на диске?
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 23, 2017, 10:48am
                   
                   
              17 
               
             
            
              валится на вот этой строчке 
writer.addIndexes(inputs); 
место  на диске должно было быть, я отслеживал расход пространства
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 23, 2017, 11:04am
                   
                   
              18 
               
             
            
              плюс, судя по всему вот это - org.apache.lucene.codecs.lucene50.Lucene50SegmentInfoFormat - deprecated
             
            
               
               
               
            
            
           
          
            
              
                Igor_Motov  
                (Igor Motov)
               
              
                  
                    February 23, 2017,  2:33pm
                   
                   
              19 
               
             
            
              Да, прошу прощения. Утилита эта устарела. Я выложил обновленную версию на https://gist.github.com/imotov/7a36dd1c779c050669de9daaaecd1ce1  Попробуйте еще раз. У вас какая версия elasticsearch, кстати?
             
            
               
               
               
            
            
           
          
            
              
                Dmytro  
                
               
              
                  
                    February 23, 2017,  3:06pm
                   
                   
              20 
               
             
            
              Версия Elastic 5.2.1, соответственно, библиотеки я брал lucene 6.4.1