Kuromoji tokenizers とURLリンク分解


(Hoang Vu Kim) #1

こんにちは
Elasticsearchの本版のフォーラムで質問しますが返事がありませんので日本語版で質問する。
日本語はあまりわからないのでよろしくお願い申し上げます
kuromojiを使うとき日本語文法は大丈夫ですがURLがある場合は上手くできていない、原因はURLがある所も分けていたんです。

I'm using elasticsearch for analysis keywords and text of twitter data in japanese by using kuromoji tokenizers too. I'ts doing very well but in this case having url on text like :

サンプル:

POST twitter_elastic_example/_analyze

{
"analyzer": "my_analyzer",
"text":"今日の仕事は終わられない http://yahoo.co.jp"
}

結果: [今日,仕事,終わる,http,yahoo,co,jp]
期待する結果 : [今日,仕事,終わる,http://yahoo.co.jp]

{kuromoji_tokeniziers} を使わないで{uax_url_email}を使えばURLリンクは大丈夫ですが日本語はできません。インタネットで検索して見ますが複数{tokenizer}が使えません。
I'm searching somewhere and try using "tokenizer": "uax_url_email" , url is ok but japanese text is not.
But we can't merger uax_url_email and kuromoji_tokeniziers together . How to solve this ?
Thanks for your help !!
日本語が下手のですみませんですた。
よろしくお願い申し上げます。


(Jun Ohtani) #2

@HoangVK

URLの検索用のフィールドと日本語の検索用のフィールドを分けるのはどうでしょう?
uax_url_emailを使うフィールド、kuromokji_tokenizerを使うフィールドを別にするのはダメですか?

どのようなシーンで使いたいので、URLと日本語を扱いたいのかを書いてもらうと、もう少し返事がもらえるかもしれません。


(system) #3

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.