Synonym graph filterにてエラーの出る単語を一括検知に関して

nuko · September 10, 2020, 3:15pm

kuromoji_tokenizerを "search"モードで指定して、
synonym graph filterを使用している場合、
辞書に入ってない単語をシノニムとして指定すると、

シノニムファイルのロード時に、下記のようなレスポンスとなります。
（ POST /indexname/_reload_search_analyzers でリロードをかけています）

{
  "error" : {
    "root_cause" : [
      {
        "type" : "illegal_argument_exception",
        "reason" : "failed to build synonyms"
      }
    ],
    "type" : "illegal_argument_exception",
    "reason" : "failed to build synonyms",
    "caused_by" : {
      "type" : "parse_exception",
      "reason" : "Invalid synonym rule at line 112",
      "caused_by" : {
        "type" : "illegal_argument_exception",
        "reason" : "term: \"アウトほげほげ\" analyzed to a token (アウトほげほげ) with position increment != 1 (got: 0)"
      }
    }
  },
  "status" : 400
}

これを回避する方法としては、

kuromoji_tokenizerを "normal"モードで指定する
形態素で解析できない単語を登録しない。する場合は辞書に登録する

といった対処がある模様です。
が、上記の方法でチェックすると、kuromojiの辞書に入ってない単語を
一つずつ探していくことになるので、非常に煩雑です。

elasticsearchのAPI、機能を使い、
synonym graph filterで指定しているファイルを一括でチェックすることはできないでしょうか？

もしくは、elasticsearchとは別にkuromojiを使って、
どの単語がどうパースされるか調べるしかないのでしょうか？

system · October 8, 2020, 3:15pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Elastic 6.2.1 アップグレードkuromoji_synのエラー出ます。日本語による質問・議論はこちら	0	1221	February 20, 2018
ES6.2.3 synonym filter error 日本語による質問・議論はこちら	2	2903	May 29, 2018
Synonym辞書の有効なケースと無効なケースについて日本語による質問・議論はこちら	1	642	March 11, 2019
Elasticsearch synonym_graph filter not giving all tokens Elasticsearch	0	398	October 9, 2020
Synonym graph token filter backed by Elastic index Elasticsearch	0	249	February 27, 2023

Synonym graph filterにてエラーの出る単語を一括検知に関して

Related topics