お世話になっております。
現在ElasticCloudを利用し、全文検索の構築を行っております。
掲題の通り、検索の精度についての質問です。
ex)
探したいワード:渋谷ヒカリエ
上記にでヒットすることがきる検索ワード
・渋谷
・ヒカリ
・エ
トークナイズ(kuromoji)の結果が上のように分割されているため
ヒカリエ
という検索ワードでヒットさせてことができません。
渋谷ヒカリエはほんの例で、最近の言葉や人名に対応させるためには通常辞書のインポート等必要になるかと思っています。
ElasticCloudの利用(クレカ登録で正式利用)では、気軽に辞書のインポートができないという認識なのですが、こういった検索精度をあげたい場合のアプローチはどのようなものがあるかご教授して頂きたいです。
抜粋になりますが、analysisの設定は下記のようにしてます。
"analysis": {
"filter": {
"greek_lowercase_filter": {
"type": "lowercase",
"language": "greek"
},
"pos_filter": {
"type": "kuromoji_part_of_speech",
"stoptags": [
"助詞-格助詞-一般",
"助詞-終助詞"
]
}
},
"analyzer": {
"kuromoji_analyzer": {
"filter": [
"kuromoji_baseform",
"pos_filter",
"greek_lowercase_filter",
"cjk_width"
],
"type": "custom",
"tokenizer": "kuromoji_tokenizer"
}
}
辞書以外にもなにかうまい方法がないかもなにかございましたらよろしくお願いします。