Mots les plus utilisés dans un documents

Astarion · November 13, 2017, 9:01pm

Bonjour,

Je souhaite récupérer les "mots clés" les plus présents dans un champs description d'un document, j'ai vu plusieurs façons de le faire mais aucune ne semble donner le résultat que j'espère...

La solution qui s'en rapproche le plus, c'est d'utiliser les termsvector, mon problème c'est qu'il semblerait que l'analyzer définit dans le mapping du champs n'est pas pris en compte (je me retrouve avec les stop words etc) et surtout, plus aucun nom propre et tout est découpé en mot (du type "New York" => "new" et "york" ...

Est-ce qu'il y a une solution simple pour avoir le comportement recherche ?

Merci d'avance pour votre aide

Julien · November 18, 2017, 9:08am

Bonjour,

Pour les stop words, ils ne font pas partie des donnees enregistre apres indexage donc il est normal qu'ils ne soient pas retournés; en indexant les memes donnees sur un champs qui n'est aucun stop word ces terms seront retournés par exemple standard analyzer : https://www.elastic.co/guide/en/elasticsearch/guide/current/using-stopwords.html

Commentaire similaire pour avoir 2 mots regroupés, analyzer utilise l'espace pour séparer les mots donc "new york" sont 2 mots. Si ce texte ou les noms propres étaient sur un champs separé de type keyword, il serait possible de faire des agregations dessus.
Il est aussi possible de rechercher separement sans changement sur le mapping des mots qui apparaisse ensemble si il y a une liste des phrases à chercher: https://www.elastic.co/guide/en/elasticsearch/guide/current/proximity-matching.html

dadoonet · November 18, 2017, 9:55am

Pour les mots composés, il y a aussi le shingle qui est l’inverse du ngram. Il assemble des termes ensembles à l’indexation.

Topic		Replies	Views
Recherche exacte Discussions en français	1	1153	June 30, 2015
Retirer mon "LE" Discussions en français	7	488	April 29, 2020
Quels analyzer pour une recherche? Discussions en français	4	763	February 1, 2017
Common terms query with a mix of phrases & single word terms Elasticsearch	6	540	November 12, 2013
Recherche partielle d'un mot Discussions en français	2	558	September 5, 2022

Mots les plus utilisés dans un documents

Related topics