Elasticsearch のインデックスからドキュメントを削除出来ない

sgsg · October 11, 2016, 8:50am

対象は複数ノードからなる分散型の検索システムで、インデックスサイズが2テラ程度、
シャーディングの設定も行っていますが、インデックスから一部のドキュメントだけ削除しようと
以下のコマンドを実行したところ、

コマンド
curl -s -XPOST localhost:9200/_bulk --data-binary @json_file

json_file
{ "delete" : { "_index" : "index", "_type" : "type", "_id" : "1" } }

以下のようなメッセージがあがり、削除できませんでした。
{
"took" : 120008,
"errors" : true,
"items" : [ {
"delete" : {
"_index" : "index",
"_type" : "type",
"_id" : "1",
"status" : 404,
"error" : "RemoteTransportException[[A1][inet[/10.10.10.10:9200]][indices:data/write/bulk[s]]]; nested: EngineClosedException[[index][4] CurrentState[CLOSED] ]; "
}
} ]
}

また、curl -XGETでドキュメントを表示することは出来、全文検索も可能ですが、XDELETEが効きかず削除出来ません。
curl -DELETE http://locahost:9200/index/type/1

削除したいドキュメントサイズは40kバイト程度です。
インデックス内の他のドキュメントは削除可能なものもあり、すべてが削除できないわけではありません。

インデックス内の他のドキュメントは残し、このドキュメントだけを削除したいのですが、削除する方法を教えて頂ければ幸いです。

ちなみに、Elasticsearch バージョン1.7.1 を使用しています。

よろしくお願いいたします。

johtani · October 13, 2016, 8:01am

実行時間の前後にElasticsearchのログに何かエラーなどは出ていないでしょうか？

sgsg · October 14, 2016, 5:12am

大谷様

お世話になります。
ご多用の中、ご連絡頂き、ありがとうございました。

クラスタを再確認したところ、HDDの残容量がゼロになっていた為、ログへ書き込みが出来ず、ドキュメントを削除出来なかったようです。
不要なログファイルを削除後、ドキュメントを削除出来、問題が解消されました。
確認不足で、申し訳ございませんでした。

今回クラスタを確認して気づいた点として、クラスタ内マシンのHDD残容量にバラつきがあることでした。

構築直後はほぼ均等にシャードが割り当てられていたのですが、運用過程で（ドキュメントを検索、追加、削除したり、停電によるマシン起動・停止等）
マシン毎にシャードが複数載っていたり、まったく載っていなかったりしたり（マシン２）、マシンの残容量も点線以下の通りバラつきがあり、
例えば、マシン２，７は残容量が非常に少ないのに、マシン１２は１１０Ｇとなっています。

設定等により、均等にデータを割り振ることは可能でしょうか？

たとえば、マシン２，７、１２をクラスタから外し、この３つで新たにクラスタを作成し、均等に割り振られた段階で、元のクラスタに戻すことなど可能でしょうか。

ご多用のところ、大変恐れ入りますがご教示頂けますと助かります。
よろしくお願い致します。

クラスタの構成（HDD: ３００Ｇ）、()内シャードの数

各マシンの残容量は以下の通りでした。
マシン１（３個）：１８Ｇ
マシン２（０個）：０．１Ｇ
マシン３（２個）：１３Ｇ
マシン４（３個）：１９Ｇ
マシン５（２個）：１０Ｇ
マシン６（１個）：３Ｇ
マシン７（２個）：０．１Ｇ
マシン８（３個）：４２Ｇ
マシン９（２個）：４６Ｇ
マシン１０（３個）：３０Ｇ
マシン１１（２個）：５６Ｇ
マシン１２（２個）：１１０Ｇ
マシン１３（２個）：９４Ｇ
マシン１４（１個）：６３Ｇ

全マシン設定
node.master: true
node.data: true
script.groovy.sandbox.enabled: false
http.max_initial_line_length: 100k

johtani · October 14, 2016, 6:56am

Disk-based Shard Allocationと言う機能があり、それが作動したために、シャードの偏りが出ているはずです。（ログに何か出ているかと。）

空き容量を作っていただければ、そのうちバランスが取れるはずです。
また、一応、Cluster Rerouteを使えば明示的に自分で動かすことも可能です。

sgsg · October 14, 2016, 8:43am

大谷様

ご教授頂き、ありがとうございました。
勉強になりました。色々試してみたいと思います。
ありがとうございました。

Topic		Replies	Views
bulkで20M以上のデータを登録したい日本語による質問・議論はこちら	4	3188	January 17, 2018
Elasticsearchにデータを保存する方法について日本語による質問・議論はこちら	5	3930	July 6, 2017
Index作成後のmapping情報の変更について日本語による質問・議論はこちら	5	7685	January 21, 2019
構造が複雑なフィールドに対するクエリーの際の重み付けに関して日本語による質問・議論はこちら	3	1494	October 3, 2017
Elasticsearchでのforcemergeについて日本語による質問・議論はこちら	2	123	September 11, 2024

Elasticsearch のインデックスからドキュメントを削除出来ない

Related topics