全文検索でヒットしないケースについて

zaru · June 20, 2022, 7:37am

Elasticsearch v7 を利用しています。

kuromoji を使った日本語の全文検索を使っているのですが、特定のキーワードだとヒットしない状況です。なにか改善方法があるかアドバイス頂けると嬉しいです。

登録テキスト : 新松戸 (実際はこのワードを含む長文)
データ型 : text
kuromoji 設定 : デフォルトのまま
形態素解析 : 新松戸 (分割されない)

検索キーワード

新松戸
松戸

クエリ例

GET index_name/_search
{
  "query": {
    "bool": { 
      "must": [
        {
          "match": {
            "content" : "松戸"
          }
        }
      ]
    } 
  } 
}

形態素解析で 新 / 松戸 と分割されないので 松戸 で検索をしてもヒットしないと理解しています。このようなケースが他のワードでも発生している状況です。

RDB の LIKE 検索のような挙動を期待しているのですが、Elasticsearch にある Wildcard クエリを使うのが良いのか、形態素解析のオプションなどで対応が可能なのかが分かっていません。

Tomo_M · June 20, 2022, 7:52am

部分一致が目的であれば、kuromojiではなくN-gram tokenizerを使ってみてはいかがですか。

zaru · June 20, 2022, 8:00am

N-gram であれば確かに 新松 / 松戸 など細かく分割されますね。インデックスサイズの肥大化を懸念していますが、どの程度なのか検証してみます。ありがとうございます。

Topic		Replies	Views
日本語全文検索について日本語による質問・議論はこちら	4	3650	December 26, 2016
検索の精度を上げるアプローチの仕方日本語による質問・議論はこちら	4	1784	October 14, 2016
Searchkick経由でのkuromojiが機能しない日本語による質問・議論はこちら	2	1334	July 9, 2020
ES 2.4.1 and Kuromoji plugin with specify filed in search query Elasticsearch	2	549	November 1, 2016
Japanese Search Results with Kuromoji plugin Elasticsearch	6	1170	March 29, 2015

全文検索でヒットしないケースについて

Related topics