入力ログファイルサイズとインデックスサイズの関係性

elasticsearchにファイルを取り込む際の入力ログファイルのサイズと、作成されるインデックスサイズの関係性について教えて下さい。

入力ファイルとして、110byteのログAと2byteのログBを別々のインデックスに取り込んだところ、ログAを取り込んだインデックスサイズは12121byte、ログBを取り込んだインデックスサイズは5732byteとなりました。
入力ファイル1byteあたりのインデックスサイズで考えると、ログAは110byte(12121/110)、ログBは 2866byte(5732/2)となり、差が見られます。

想定では入力ファイルのサイズと作成されるインデックスのサイズは比例関係にあると思っていたのですが、そうではないように見えています。関係性についてご教示頂けないでしょうか?
ちなみに、インデックスサイズは以下のAPIにて確認しています

GET input_my_index/_stats/store

■ログAのファイル内容
1234567890
1234567890
1234567890
1234567890
1234567890
1234567890
1234567890
1234567890
1234567890
1234567890

■ログBのファイル内容
1

比較している前提条件が気になります。

別々のIndexに取り込んだところ

とありますが、このIndexはそれぞれ同じマッピング情報を持ちますでしょうか?
ここが異なると、入力するデータのサイズが同一でも、結果は異なってくると思います。

また、それぞれのフィールドの設定にもよるでしょうけれども、
文字列の場合、同じようなトークンばかりのもので100kbあるものと、まったくユニークなものが多い100kbのものでは、結果が異なってくるかと思います。

まずは、マッピングの設定を同じにして比較してみると良いのではと思います。

ご回答ありがとうございます。

マッピング情報は事前に設定していなかったので登録時に自動的に作成されていると思いますので、別々の定義になっていると思われます。

「文字列の場合、同じようなトークンばかりのもので100kbあるものと、まったくユニークなものが多い100kbのものでは、結果が異なってくるかと思います。」とのことですが、結果が異なる理由が理解できておらず、ご教示頂けないでしょうか?

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.