Stemming en français?

Bonjour,

J'ai posté dans le forum principal sur mes difficultés avec les algorithmes pour du stemming en français et je voulais juste demander ici si quelqu'un avait déjà trouvé des solutions ?

Brèvement : le stemmer français d'Elasticsearch ne reconnait pas, par exemple, que mal et maux sont pareils. Même problème en allemand avec des verbes, genre schlummern = schlummert.

Merci à tous !
Ben

Bonjour @bkazez,

Je ne sais pas si ca peux aider vu que le post est un peux vieu, ca coute rien de jeter un coup d'oeil a cette solution, si elle est toujours valable:

Merci @gabriel_tessier pour la réponse ! En faite les seules différences entre mon analyse et l'analyzer de cette page sont le tokenizer icu_tokenizer et le filtre icu_folding, qui n'auraient pas d'effet pour mots comme "mal/maux".

J'ai noté en faite que le stemmer light_french (également le plus heavy french) marche bien avec d'autres mots -al/-aux - il reconnait que normal=normaux, cheval=chevaux, et animal=animaux.

La bogue alors est que ces stemmers ne reconnaissent pas mal=maux. C'est juste un seul exemple et j'ai peur qu'il y en a d'autres.

D'autres idées ?

Ben

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.