検索文字からドキュメントの完全一致をしたい

soraiyu · February 10, 2017, 10:24am

専門用語の辞書を作成しています。

以下のようなドキュメントが入っています。

この文字を以下で検索します。

文字列が以下のように形態素解析されるとして、

僕は黄パジャマを着たい。貴方は赤パジャマにしたら？

その結果以下が欲しいです。

試した方法と考えた解決案

赤パジャマ → 赤、パジャマ → 赤(0:0)、パジャマ(0:1)
青パジャマ → 青、パジャマ → 青(1:0)、パジャマ(1:1)
黄パジャマ → 黄、パジャマ → 黄(2:0)、パジャマ(2:1)

赤 0:0
青 1:0
黄 2:0
パジャマ 0:1, 1:1, 2:1

赤 0:0
黄 2:0
パジャマ 0:1, 1:1, 2:1

→ 0, 1, 2全部ヒットする

検索する文字列が不適切に分割された場合にヒットしない
赤、パジャマと分割されているのでヒットしない

解析済みのテキストにはポジションがあるので以下のようにできないか考えています。
1でインデックスを検索した結果以下のように想定できます。

赤 0:0
黄 2:0
パジャマ 0:1, 1:1, 2:1

その結果、全てがヒットしますが、ドキュメントに着目すると

0:0, 0:1 → 赤パジャマ
1:1 → パジャマ
2:0, 2:1 → 黄パジャマ

となり、1:0が無いので青パジャマを除外できるのじゃないかと考えました。

検索クエリでこのpositionやドキュメントIDの演算ができるのか、
また別な解決策があれば教えていただきたいです。

johtani · February 10, 2017, 2:09pm

問題点がよくわかっていないですが、フレーズのクエリを利用してみてはどうでしょうか？
https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-match-query-phrase.html

soraiyu · February 10, 2017, 2:29pm

大谷さん、ありがとうございます

でも違うんです。
検索するキーワードの中に、既にあるドキュメントが完全一致してるのをヒットさせたいんです。

フレーズは、検索する文字列の話だと理解しています。

johtani · February 10, 2017, 2:45pm

インデックスするフィールドも同じAnalyzerを利用すれば、フレーズ検索の場合は隣り合ってるものしか出てこないですよ？

soraiyu · February 10, 2017, 2:50pm

お、、なるほど。僕の理解不足です
試してみます！

soraiyu · February 13, 2017, 4:22am

@johtani
フレーズ検索で試してみました。
ドキュメントに[ 赤パジャマ, 青パジャマ, 黄パジャマ] の3つが入っているときに[赤パジャマ上]でフレーズ検索すると引っかかりません。
やりたいことは[赤パジャマ上]で検索して[赤パジャマ]をヒットさせることです。

通常の検索だと[赤パジャマ上]で検索すると[ 赤パジャマ, 青パジャマ, 黄パジャマ] がヒットします。
ここから[赤パジャマ]だけにしたいんです。
ドキュメント見ながらクエリをどう組み立てればいいか再度見てみます。

soraiyu · February 13, 2017, 12:46pm

普通に検索して、その結果のドキュメントが検索する文字列に含まれてるものにプログラム内で絞る方法で一旦考えて進めます。

soraiyu · February 22, 2017, 2:43am

ngramで解析して、検索した結果が検索文字列に含まれるもののみプログラムで間引きました。

Topic		Replies	Views
検索の精度を上げるアプローチの仕方日本語による質問・議論はこちら	4	1785	October 14, 2016
matchPhraseQuery can not retrieve documents with trailing “’s” even if set word delimiter tokenfilter when created indices Elasticsearch	7	505	May 15, 2013
Partial word match with singular and plurals: Elasticsearch Elasticsearch	6	7868	May 5, 2014
Which query is the best for standard searching? Elasticsearch	25	908	July 6, 2012
Common terms query with a mix of phrases & single word terms Elasticsearch	6	540	November 12, 2013