Analyse mots à mots

Bonjour,

Cela fait maintenant 1 mois que je récupère en direct des tweets au sujet du festival d'Avignon.
J'ai donc crée un dashboard, en utilisant le mapping proposé par kibana pour twitter.

Je cherche à présent à créer des visus avec les mots et les smileys les plus utilisés.
Or je n'ai à ma disposition que des champs text.keyword, représentant le message du tweet.

Comment puis-je faire pour récupérer un champ "emoji" et "mots", champs étant une liste avec l'intégralité des mots/emojis, le tout en modifiant un minimum mon index?
Je penses que les scripted fields peuvent m'être utile, mais j'ai des problèmes de compilation en allant dans discover...

En espérant que vous pourrez m'aider

Bonjour,

Une solution serait de reindexer tes données avec un mapping qui supporte tes 2 cas, en ajoutant un template avec le mapping qui va bien.

Du coup tu aura un champ text.emoji avec seulement des emojis et un champ text.brut avec seulement de l'alphabet, chiffres et peut etre ponctuation, depends de tes besoins.
T'aura toujours ton champ text avec tes données d'origine analyzé et text.keyword non analyzé.

Une autre solution plus avancée avec traduction des emojis (en english): https://jolicode.com/blog/search-for-emoji-with-elasticsearch

2 Likes

Et @Damien_Alexandre nous a également parlé de tout cela (en français :slight_smile: ) lors d'un super meetup: https://www.elastic.co/fr/videos/comment-indexer-des-emoji-avec-elasticsearch-par-damien-alexandre

1 Like

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.