J'ai posté dans le forum principal sur mes difficultés avec les algorithmes pour du stemming en français et je voulais juste demander ici si quelqu'un avait déjà trouvé des solutions ?
Brèvement : le stemmer français d'Elasticsearch ne reconnait pas, par exemple, que mal et maux sont pareils. Même problème en allemand avec des verbes, genre schlummern = schlummert.
Merci @gabriel_tessier pour la réponse ! En faite les seules différences entre mon analyse et l'analyzer de cette page sont le tokenizer icu_tokenizer et le filtre icu_folding, qui n'auraient pas d'effet pour mots comme "mal/maux".
J'ai noté en faite que le stemmer light_french (également le plus heavy french) marche bien avec d'autres mots -al/-aux - il reconnait que normal=normaux, cheval=chevaux, et animal=animaux.
La bogue alors est que ces stemmers ne reconnaissent pas mal=maux. C'est juste un seul exemple et j'ai peur qu'il y en a d'autres.
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.