Kuromoji_readingform を使用して読み仮名でサジェストを得たい

kaiba · June 5, 2020, 3:15am

お世話になっております。

「貴社の記者が汽車で帰社する」というドキュメントに対して、漢字、読み仮名でサジェストを得たいのですが、うまくいかず相談させていただきました。

indexは以下のようになっております。

PUT kaiba
{
  "settings": {
    "index": {
      "analysis": {
        "analyzer": {
          "tag_analyzer": {
            "type": "custom",
            "tokenizer": "kuromoji_tokenizer",
            "filter": [
              "kuromoji_readingform",
              "lowercase"
            ],
            "mode": "search"
          }
        }
      }
    }
  },
  "mappings": {
    "tags": {
      "properties": {
        "name_completion": {
          "type": "completion",
          "analyzer": "tag_analyzer"
        }
      }
    }
  }
}

GET /kaiba/tags/_search
{
  "suggest": {
    "hoge": {
      "prefix": "貴社",
      "completion": {
        "field": "name_completion"
      }
    }
  }
}

貴社 => OK
貴社の記 => OK (こんな検索はしないでしょうが)
キシ => OK
キシャ => OK
キシャノ => OK
キシャノキ => NG
キシャノキシャ => NG

kuromoji_readingformを使用せず、自前で読み仮名を得て、standard tokenizerを使用したフィールドを入れればうまくいくのですが、できればkuromoji_readingformに寄せたいです。
良い方法はないでしょうか？

どうも長い単語で試してみても3〜4文字でしかサジェストを得ることができないようで、他の問題のような気もします…

miki · June 10, 2020, 2:17pm

「貴社の記者が汽車で帰社する」をtokenizeすると「キシャ|ノ|キシャ|ガ|キシャ|デ|キシャ|スル」に分割されます。
それに対し、「キシャノキ」や「キシャノキシャ」は、分割される1つのtokenとなるため、マッチしません。

どう分割されるかは、Analyze APIで確認してみてください。
https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-analyze.html

日本語のように漢字や平仮名やカタカナがある場合は、suggesterだと特定のフィールドしか検索できないので、要件が複雑になればなるほど要件を満たす実装は難しくなります。

多くのケースでは、通常のsearch-apiを利用して、サジェストを実装する方法の方が多いと思います。以下のブログが非常にわかりやすく記載されているので、これをベースに検討するのが良いと思います。

kaiba · June 11, 2020, 1:11am

ありがとうございます。理解できました！

Topic		Replies	Views
Kuromoji_readingform の意図しない出力について日本語による質問・議論はこちら	2	4056	October 20, 2015
Kuromojiユーザ辞書に定義済みの単語で構成された複合語の形態素解析について日本語による質問・議論はこちら	2	4276	October 4, 2021
Kuromoji_stemmer と kuromoji_readingform の同時使用について日本語による質問・議論はこちら	2	2375	May 11, 2017
Kuromoji analysis pluginで用意されている品詞の一覧について日本語による質問・議論はこちら	4	2844	October 12, 2018
Elasticsearch Kuromoji plugin Elasticsearch	0	190	May 25, 2023

Kuromoji_readingform を使用して読み仮名でサジェストを得たい

Related topics