Не работают стоп слова

Continuing the discussion from Не работают стоп слова:

У меня схожая проблема, что и описанная выше. Только в индексе есть все нужные настройки, а поиск все равно осуществляется без стоп-слов.

Вот так выглядят настройки:

$settings = [
		    'number_of_shards'      => 1,
		    'number_of_replicas'    => 1,
		    'max_ngram_diff' => 50,
		    'analysis' => [
			    'analyzer' => [
				    'custom_analyzer' => [
					    'type' => 'custom',
					    'char_filter' => ['e_char_filter'],
					    'tokenizer' => 'nGram',
					    'filter' => ['stopwords', 'ru_stopwords', 'asciifolding' ,'lowercase', 'snowball'],
				    ],
				    'custom_search_analyzer' => [
					    'type' => 'custom',
					    'char_filter' => ['e_char_filter'],
					    'tokenizer' => 'standard',
					    'filter' => ['stopwords', 'ru_stopwords', 'asciifolding' ,'lowercase', 'snowball'],
				    ],
			    ],
			    'tokenizer' => [
				    'nGram' => [
					    'type' => 'nGram',
					    'min_gram' => 2,
					    'max_gram' => 20,
				    ],
			    ],
			    'filter' => [
				    'snowball' => [
					    'type' => 'snowball',
					    'language' => 'Russian',
				    ],
				    'stopwords' => [
					    'type' => 'stop',
					    'stopwords' => '_russian_',
					    'ignore_case' => 'true',
				    ],
				    'ru_stopwords' => [
					    'type' => 'stop',
					    'stopwords' => 'рецепт'
				    ],
			    ],
			    'char_filter' => [
				    'e_char_filter'=> [
					    'type'=> 'mapping',
				       'mappings'=> [ 'Ё => Е', 'ё => е' ]
				    ]
			    ]
		    ],
	    ];

вот так индексация:

$category = [
		    'index' => 'category',
		    'body'  => [
			    'settings' => $settings,
					'mappings' => [
						'_source' => [
							'enabled' => true,
						],
						'properties' => [
							'name' => [
								'type'  => 'text',
								'analyzer' => 'custom_analyzer',
								'search_analyzer' => 'custom_search_analyzer',
							],
							'url' => [
								'type'  => 'text',
								'analyzer' => 'custom_analyzer',
								'search_analyzer' => 'custom_search_analyzer',
							],
							'id' => [
								'type' => 'integer'
							]
						]
					],
		    ]
	    ];

версия эластика
7.8.0

Вы не могли бы перевести эти настройки в json, чтобы я мог попробовать с ними поработать. И у вас в индексации тоже настройки вместо документа, а запроса вообще нет.

{
"index":"category",
"body":{
"settings":{
"number_of_shards":1,
"number_of_replicas":1,
"max_ngram_diff":50,
"analysis":{
"analyzer":{
"custom_analyzer":{
"type":"custom",
"char_filter":[
"e_char_filter"
],
"tokenizer":"nGram",
"filter":[
"stopwords",
"ru_stopwords",
"asciifolding",
"lowercase",
"snowball"
]
},
"custom_search_analyzer":{
"type":"custom",
"char_filter":[
"e_char_filter"
],
"tokenizer":"standard",
"filter":[
"stopwords",
"ru_stopwords",
"asciifolding",
"lowercase",
"snowball"
]
}
},
"tokenizer":{
"nGram":{
"type":"nGram",
"min_gram":2,
"max_gram":20
}
},
"filter":{
"snowball":{
"type":"snowball",
"language":"Russian"
},
"stopwords":{
"type":"stop",
"stopwords":"_russian_",
"ignore_case":"true"
},
"ru_stopwords":{
"type":"stop",
"stopwords":"рецепт"
}
},
"char_filter":{
"e_char_filter":{
"type":"mapping",
"mappings":[
"Ё => Е",
"ё => е"
]
}
}
}
},
"mappings":{
"_source":{
"enabled":true
},
"properties":{
"name":{
"type":"text",
"analyzer":"custom_analyzer",
"search_analyzer":"custom_search_analyzer"
},
"url":{
"type":"text",
"analyzer":"custom_analyzer",
"search_analyzer":"custom_search_analyzer"
},
"id":{
"type":"integer"
}
}
}
}
}

И пример того, как они не работают?

{

 "index":"categories",
 "body":{
  "sort":"_score",
  "size":10,
  "query":{
     "bool":{
       "must":{
         "multi_match":{
           "fields":[ "name"],
          "query":"query"
     }
   }
 }
 }
}
}

вот пример запроса:

Ищет не учитывая стоп слово "с".

Пытаюсь воспроизвести:

DELETE test

PUT test
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 1,
    "max_ngram_diff": 50,
    "analysis": {
      "analyzer": {
        "custom_analyzer": {
          "type": "custom",
          "char_filter": [
            "e_char_filter"
          ],
          "tokenizer": "nGram",
          "filter": [
            "stopwords",
            "ru_stopwords",
            "asciifolding",
            "lowercase",
            "snowball"
          ]
        },
        "custom_search_analyzer": {
          "type": "custom",
          "char_filter": [
            "e_char_filter"
          ],
          "tokenizer": "standard",
          "filter": [
            "stopwords",
            "ru_stopwords",
            "asciifolding",
            "lowercase",
            "snowball"
          ]
        }
      },
      "tokenizer": {
        "nGram": {
          "type": "nGram",
          "min_gram": 2,
          "max_gram": 20
        }
      },
      "filter": {
        "snowball": {
          "type": "snowball",
          "language": "Russian"
        },
        "stopwords": {
          "type": "stop",
          "stopwords": "_russian_",
          "ignore_case": "true"
        },
        "ru_stopwords": {
          "type": "stop",
          "stopwords": "рецепт"
        }
      },
      "char_filter": {
        "e_char_filter": {
          "type": "mapping",
          "mappings": [
            "Ё => Е",
            "ё => е"
          ]
        }
      }
    }
  },
  "mappings": {
    "_source": {
      "enabled": true
    },
    "properties": {
      "name": {
        "type": "text",
        "analyzer": "custom_analyzer",
        "search_analyzer": "custom_search_analyzer"
      },
      "url": {
        "type": "text",
        "analyzer": "custom_analyzer",
        "search_analyzer": "custom_search_analyzer"
      },
      "id": {
        "type": "integer"
      }
    }
  }
}


POST test/_bulk
{ "index" : {} }
{ "name" : "Булочки с овощами" }
{ "index" : {} }
{ "name" : "Булочки" }
{ "index" : {} }
{ "name" : "Постные булочки дрожжевые" }
{ "index" : {} }
{ "name" : "Салаты с курицей" }
{ "index" : {} }
{ "name" : "Рис с овощами" }

GET test/_search
{
  "sort": "_score",
  "size": 10,
  "query": {
    "bool": {
      "must": {
        "multi_match": {
          "fields": [
            "name"
          ],
          "query": "Булочки с овощами"
        }
      }
    }
  }
}

Получаю:

{
  "took" : 3,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 4,
      "relation" : "eq"
    },
    "max_score" : 2.2175546,
    "hits" : [
      {
        "_index" : "test",
        "_type" : "_doc",
        "_id" : "6v4kknQBgqoXz1_P9du_",
        "_score" : 2.2175546,
        "_source" : {
          "name" : "Булочки с овощами"
        }
      },
      {
        "_index" : "test",
        "_type" : "_doc",
        "_id" : "7v4kknQBgqoXz1_P9du_",
        "_score" : 1.5916679,
        "_source" : {
          "name" : "Рис с овощами"
        }
      },
      {
        "_index" : "test",
        "_type" : "_doc",
        "_id" : "6_4kknQBgqoXz1_P9du_",
        "_score" : 0.9682747,
        "_source" : {
          "name" : "Булочки"
        }
      },
      {
        "_index" : "test",
        "_type" : "_doc",
        "_id" : "7P4kknQBgqoXz1_P9du_",
        "_score" : 0.55274975,
        "_source" : {
          "name" : "Постные булочки дрожжевые"
        }
      }
    ]
  }
}

Все работает, как я бы и ожидал. Вы не могли бы помочь вам помочь и привести полный пример, который я мог бы запустить и посмотреть, что не работает?

В целом, это и есть полный поисковый запрос. У меня это выглядит вот так:

$params = [
			'index' => 'categories',
			'body'  => [
				'sort'  => '_score',
				'size' => isset($limit) ? $limit : 10,
				'query' => [
					'bool' => [
						'must' => [
							'multi_match' => [
								'fields'    => ['name'],
								'query' => $query,
							],
						],
					],
				],
			]
		];

		$response = $this->client->search($params);

Этот запрос работает. Значит проблема, где-то в другом месте, проверьте настройки и исправьте, пожалуйста, мой пример, что бы он не работал, как у вас.

А на какой версии эластика вы все это пробуете?
Просто я уже не представляю куда смотреть. Все возможные варианты испробовал.
В каком месте может быть ошибка?
Если индекс собран правильно, запрос составлен тоже корректно?

7.8.0 Вы мой пример на вашей версии запускали?

Скорее всего, что-то что вы думаете, что что-то оно правильно, а на самом деле оно не правильно.

В общем, проблема была где-то в индексации. На стороне php клиента. Спасибо за помощь!

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.