Strange stemmer behavior on accents


(Pascal Pensa) #1

Hi,

I found strange results using french stemmer :

été & l'été => accents removed for "l'et" not "été"

télé & télévision => accents removed for "tel" not for "télévis"

conf is really simple:

index :
analysis :
analyzer :
myAnalyzer :
type : custom
tokenizer : standard
filter : [ myFrenchStemmer ]
myFrenchStemmer :
type : stemmer
language : french

curl -XGET "http://localhost:9200/test/_analyze?
analyzer=myAnalyzer&pretty=true"-d "l'été été télé télévision"

{
"tokens" : [ {
"token" : "l'et",
"start_offset" : 0,
"end_offset" : 5,
"type" : "",
"position" : 1
}, {
"token" : "été",
"start_offset" : 6,
"end_offset" : 9,
"type" : "",
"position" : 2
}, {
"token" : "tel",
"start_offset" : 10,
"end_offset" : 14,
"type" : "",
"position" : 3
}, {
"token" : "télévis",
"start_offset" : 15,
"end_offset" : 25,
"type" : "",
"position" : 4
} ]
}

Pascal


(system) #2