Как указать требуемое количество вхождений терма в рассматриваемом тексте?


(Александр Петровский) #1

Пример:

{
	"query": {
		"bool": {
			"must": [
				{
					"match": {
						"name": {
							"query": "20 20 20000",
							"boost": 2,
							"operator": "or",
							"minimum_should_match": "100%"
						}
					}
				}
			]
		}
	},
	"highlight": {
		"fields": {
			"name": {}
		}
	},
	"size": 50
}

результат:

{
    "took": 1,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 7,
        "max_score": 32.009205,
        "hits": [
            {
                "_index": "app",
                "_type": "test",
                "_id": "36370",
                "_score": 32.009205,
                "_source": {
                    "name": "бла бла 20000 бла бла 20000 бла 20"
                },
                "highlight": {
                    "name": [
                        "бла бла <em>20000</em>  бла бла <em>20000</em> бла <em>20</em>"
                    ]
                }
            },
...

Как исключить из поиска подобные результаты? Ожидаю увидеть в поиске только такие названия, в которых будет встречаться как минимум 2 раза число 20, и минимум 1 раз 20000.

Прочитав документацию, нашел 2 раздела, которые, как мне кажется, относятся к делу:
https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-mlt-query.html
https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-script-query.html

Но рабочий пример написать так и не получилось.

Уважаемые специалисты, можете подсказать верную дорогу?

UPD:
Нашел способ хакнуть(?):

{
	"match_phrase": {
		"name": {
			"query": "20 20000 20",
			"boost": 2,
			"slop": 100
		}
	}
}

(Igor Motov) #2

Это далеко не самый быстрый и оптимальный способ, но единственный простой способ, который приходит в голову, если честно.


(system) #3

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.