いつもお世話になります。
Elasticsearchの検索スコア計算について、アドバイスをお願いします。
Elasticserach ver.1.4.1
TF(Document内のTermのマッチ率)
IDF(INDEX内の全Documentに対する、Termを含んだDocumentの比率)
DocumentのLengthがより短いもの
50音順
Boost
より、スコアを計算し検索結果をソートしていると考えておりますが、
検索キーと検索結果が以下のようなパターンが出ており、上記の条件と合致しないように見えます。
スコア計算に影響のある設定はない状態です。
キーワード:
SCORETEST
検索結果
SCORETESTCABLEKIT
SCORETESTPIOS ←①
SCORETESTMODB512M
SCORETESTPI1CALCA
SCORETESTPI3CALCB
SCORETESTPI2CALCB ←②
SCORETESTPI1CALCA ←③
アナライザ:bigram
① キーワードSCORETESTに対するTFは検索結果下位の"SCORETESTPIOS"が高いと思います。
"SCORETESTPIOS" はLengthが検索上位の "SCORETESTCABLEKIT" より短いため
検索結果は上位に上がるのではないでしょうか。
② キーワードSCORETESTに対するTFは同様と思います。
次に、”SCORETESTPI2CALCB” は ”SCORETESTPI3CALCB” より50音で考えれば早く
検索上位に上がるのではないでしょうか。
③ ②と同様
TF・IDFその他条件に対する理解が不足している場合、指摘していただければと思います。
何卒、よろしくお願いします。