Synonym辞書の有効なケースと無効なケースについて

基本的な質問で恐縮ですが、synonymについて質問させてください。
使用しているESとkibanaのバージョンは共に6.6.1を使っています。

"新型i-pod2019年2月リリース" という文章を_analyze APIで確かめたところ添付画像のようなtokenに分かれていました。

indexの設定は以下のようにしています。

"settings":{
		"number_of_shards":1,
		"number_of_replicas":0,
		"index":{
			"analysis": {
      			"analyzer": {
        			"ja_analyzer": { 
          				"type": "custom",
					"tokenizer": "kuromoji_tokenizer",
          				"filter": [
            				    "synonym"
          				]
        			}
      			},
			"filter" : {
			    "synonym" : {
                	        "type" : "synonym",
                    	        "synonyms_path" : "synonym.txt"
                	    }
                        }
		     }
		}
	},

またsynonym.txtの中身はこんな感じです。

i-pod, i pod => ipod
2 月=> 2月

現在、"2","月"となっているtokenを"2月"という1トークンにしたいと考えています。
synonym.txtで2 月=> 2月という指定をしていますが、設定が反映されていないように見えます。一方でi-podは適切に設定されているように見えます。
これはなにが原因と考えられるでしょうか。
どなたか助言をいただければと思います。

「Show all Token Attrs?」の箇所を有効にしてみると、こんな画面が見えるかと思います。

filter synonymのところを見ていただくと、typeで赤枠で囲った部分がSYNONYMとなっているかと思います。
2月のところも、ipodのところと同じくSYNONYMになっています。
このことから、”2月”の部分に関しても動いていると言えそうです。
たとえば、”2 月 => 4月"のような設定をして試すと、確かに「4 月」になることが分かります。

synonym token filterを通ったあと、2月のようなものは、再度トークンが分けられるような処理があるように思います。
そのため、「2月」と1語にしようとしても、2つに分かれるため、設定が反映されてないように見えるのでは、と思います。

2月のような言葉ではなく、februaryなどと指定していただくと、「2 月」のところも反映されていることが確認できるかと思います。

PUT /forum0311
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0,
    "index": {
      "analysis": {
        "analyzer": {
          "ja_analyzer": {
            "type": "custom",
            "tokenizer": "kuromoji_tokenizer",
            "filter": [
              "synonym"
            ]
          }
        },
        "filter": {
          "synonym": {
            "type": "synonym",
             "synonyms" : [
                            "i-pod, i pod => ipod",
                            "2 月 => february"
                        ]
          }
        }
      }
    }
  }
}

確認用クエリ

GET forum0311/_analyze
{
  "explain": true,
  "text": "新型i-pod2019年2月リリース",
  "analyzer": "ja_analyzer"
}
1 Like

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.