Не работает boost в запросах


(Vladimir) #1

Добрый день!

Есть индекс:

curl -XDELETE "http://127.0.0.1:9200/tests"

curl -XPUT "http://127.0.0.1:9200/tests/" -d '{
   "settings":{
      "analysis":{
         "filter":{
            "edge":{"type":"edgeNGram", "min_gram":1, "max_gram":15},
            "substring":{"type":"nGram","min_gram":1,"max_gram":15},
            "synonym" : {"type" : "synonym", "synonyms":["alfa,beta","gamma,delta"]}
         },
         "analyzer":{
            "str_edge_index_analyzer":{"filter":["lowercase","edge"],"tokenizer":"keyword"},
            "edge_synonym_index":{"filter":["lowercase","synonym","edge"],"tokenizer":"keyword"},
            "str_index_analyzer":{"filter":["lowercase","substring"],"tokenizer":"keyword"},
            "synonym_index":{"filter":["lowercase","synonym","substring"],"tokenizer":"keyword"},
            "str_search_analyzer":{"filter":["lowercase"],"tokenizer":"standard"}
         }
      }
   },
   "mappings":{
      "test":{
         "properties":{
           "id" : {"type": "string"},
           "name":{
               "type":"multi_field",
               "fields":{
                  "edge":{"type":"string", "analyzer":"str_edge_index_analyzer", "search_analyzer":"str_search_analyzer"},
                  "syn_edge":{"type":"string","analyzer":"edge_synonym_index","search_analyzer":"str_search_analyzer"},
				  "ngram":{"type":"string","analyzer":"str_index_analyzer","search_analyzer":"str_search_analyzer"},
                  "syn":{"type":"string","analyzer":"synonym_index","search_analyzer":"str_search_analyzer"}
               }
            }
         }
      }
   }
}'

И данные в нем:

curl -XPOST "http://127.0.0.1:9200/tests/test/1" -d '{
	"id": "1",
	"name": "alfa"
}'

curl -XPOST "http://127.0.0.1:9200/tests/test/2" -d '{
	"id": "1",
	"name": "device beta"
}'

Делаю запрос по слову "beta":

curl -XPOST "http://127.0.0.1:9200/tests/test/_search?pretty=true" -d '{
   "query": {
      "multi_match": {
          "query": "beta",
          "fields": ["name.edge^100", "name.syn_edge^100", "name.ngram", "name.syn"],
          "analyzer": "str_search_analyzer", "fuzziness": "0"
          
      }
   },
   "explain":true,
   "size":4
}'

получаю такой ответ:

{
  "took": 7,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0.30685282,
    "hits": [
      {
        "_shard": 2,
        "_node": "fHFYjxEAQ6Oq6nc-Qf1y0Q",
        "_index": "tests",
        "_type": "test",
        "_id": "2",
        "_score": 0.30685282,
        "_source": {
          "id": "1",
          "name": "device beta"
        },
        "_explanation": {
          "value": 0.30685282,
          "description": "sum of:",
          "details": [
            {
              "value": 0.30685282,
              "description": "max of:",
              "details": [
                {
                  "value": 0.30685282,
                  "description": "weight(name.syn:beta in 0) [PerFieldSimilarity], result of:",

... skip ...

      },
      {
        "_shard": 3,
        "_node": "fHFYjxEAQ6Oq6nc-Qf1y0Q",
        "_index": "tests",
        "_type": "test",
        "_id": "1",
        "_score": 0.30685282,
        "_source": {
          "id": "1",
          "name": "alfa"
        },
        "_explanation": {
          "value": 0.30685282,
          "description": "sum of:",
          "details": [
            {
              "value": 0.30685282,
              "description": "max of:",
              "details": [
                {
                  "value": 0.0030685281,
                  "description": "weight(name.syn:beta in 0) [PerFieldSimilarity], result of:",
                  "details": [
                    {

... skip ...

                {
                  "value": 0.30685282,
                  "description": "weight(name.syn_edge:beta^100.0 in 0) [PerFieldSimilarity], result of:",

... skip ...

    ]
  }
}

Почему-то boost ^100 на поле name.syn_edge работает не так как я ожидаю.
Попробовал преобразовать запрос так:

curl -XPOST "http://127.0.0.1:9200/tests/test/_search?pretty=true" -d '{
   "query": {
      "bool": {
         "should": [
            { "match": { "name.edge": { "query":"beta", "boost":100, "analyzer":"str_search_analyzer", "fuzziness":"0" } } },
            { "match": { "name.syn_edge": { "query":"beta", "boost":100, "analyzer":"str_search_analyzer", "fuzziness":"0" } } },
            { "match": { "name.ngram": { "query":"beta", "analyzer":"str_search_analyzer", "fuzziness":"0" } } },
            { "match": { "name.syn": { "query":"beta", "analyzer":"str_search_analyzer", "fuzziness":"0" } } }
         ]
      }
   },
   "explain":true,
   "size":4
}'

Результат аналогичный.
Что я делаю не так, почему boost учитывается как-то странно (на мой взгляд)?


(Igor Motov) #2

Boost нормализуется, поэтому вместо того, чтобы умножать оценку поля name.edge на 100, elasticsearch оставляет его без изменений и умножает оценки всех остальных полей без буста на 0.01.

Если интересуют детали, попробуйте сравнить оценку в одном и том же запросе по двум полям - с бустом и без и обратите внимание на то, как рассчитывается queryWeight. Вы увидите, что оценка полей с бустом действительно умножаются на 100, но при этом оценка всех полей еще и умножается на 0.01 (или что-то в этом роде в зависимости от запроса):

{
    "value": 0.01,
    "description": "queryNorm",
    "details": []
}

Еще почитайте тут - https://www.elastic.co/guide/en/elasticsearch/guide/master/practical-scoring-function.html#query-norm


(Vladimir) #3

В том то и дело.
в документе с name="device beta", который был найден по полям name.syn и name.ngram, которые в запросах не бустятся

{
   "value": 1,
   "description": "fieldNorm(doc=0)",
   "details": []
}

И

 {
   "value": 3.2588913,
   "description": "queryNorm",
   "details": []
}

А у документа "name": "alfa", который найден по полям name.syn_edge с boost 100 и name.syn без boost ситуация такая:
для поля name.syn_edge:

{
   "value": 1,
   "description": "fieldNorm(doc=0)",
   "details": []
}

для поля name.syn:

{
   "value": 0.032588914,
   "description": "queryNorm",
   "details": []
}
{
   "value": 1,
   "description": "fieldNorm(doc=0)",
   "details": []
}

То есть как будто boost действует на уровне документа, а не на глобальном уровне поиска

У меня же задача ранжировать по такому принципу:
скор документов найденных по полю "А" увеличим в 100 раз, скор документов найденных по полю "Б" оставим без изменения


(Igor Motov) #4

Похоже на баг. Без fuzziness или с одной шардой все работает как надо. Я открыл https://github.com/elastic/elasticsearch/issues/18710


(Vladimir) #5

Игорь, спасибо!

Буду следить за issue


(Vladimir) #6

Игорь, добрый день!

Баг в lucene закрыт 21.06

Не подскажете, когда ожидать закрытия бага https://github.com/elastic/elasticsearch/issues/18710 и в какую версию войдет исправление?

Спасибо!


(Igor Motov) #7

в какую версию войдет исправление?

Скорее всего в 5.0


(Vladimir) #8

Спасибо!


(system) #9