ElasticSearch & Statistiques

Bonjour,

je ne suis pas un spécialiste d'ElasticSearch mais je l'utilise dans mon milieu professionnel :).

je voulais avoir des retours par rapport à l'utilisation de ES dans le calcul des statistiques: est ce que c'est adapté pour faire ce genre de traitement sur un volume de données de quelques To et les limites.

Merci par avance de votre retour.

Personnellement je l'ai utilisé dans pas mal de cas d'utilisation pour remplacer des systèmes de BI et datamining existants, la différence majeure est que ES n'est pas un model relationnel et donc l'approche change un peu au niveau ingestion des données où va falloir flatter les données et enrichir avec le maximul d'info pour avoir toutes les possibilité d'analyse.

Si vous pouvez fournir plus de détails sur votre use case, on peut échnager sur les possibilités

Bonjour Yassine LASRI,

Merci pour votre réponse.

pour le problème non relationnel pour moi ce n'est pas un soucis, je vais trouver un moyen.

je voulais savoir juste les bonnes pratiques, est ce que c'est adapté pour faire ces traitements et les limites.

Aujourd'hui j'ai quelques To des données et demain peut-être plus.

Concernant les données, en gros je vais avoir un objet et dedant plusieurs propriétés et je dois faire des stats sur ces propriétés.

je reste à votre disposition si ce n'est pas claire

Parfait, les bonnes pratiques pour moi :

  • Sizing de votre cluster selon la volumétrie à traiter, il y a l'architecture hot/warm (tu peux aller sur 1Go de RAM pour chaque 32Go de data pour les noeuds hot, et tu peux aller jusqu'a 90Go de data pour chaque 1Go de RAM pour les noeuds warm), check here

  • Définir le mapping de vos données, c'est hyper important pour avoir des temps de réponse rapide

  • Calculer ce qui peut etre calculer au moment de l'ingest (logstash ou ingest pipeline)

  • Enrichir tout ce qui peut etre enrichit au moment de l'ingest (logstash ou pipeline enrichi policy)

  • Utiliser TSVB à chaque fois que les visulisation de Kibana ont une limite, au pire de cas tu as toujours vega pour faire ce que tu veux sans limite

  • Pense à Tranform

  • Pense aussi à canevas et SQL

Merci Yassine,

pour vous elasticsearch est adapté à ce genre de traitements en plus de la recherche textuelle en respectant les points de votre post.

Merci pour les conseils aussi.
Pour la visualisation des données, on est plus sur une IHM faite maison ...

j'ai une question pourquoi vous passez d'un des systèmes de BI à ES ? vous nêtes pas oubligé de répondre :slight_smile:

Merci.

Je travail bcp dans le contexte telecom, ou je sui sobligé de traiter un volume important de logs et au méme temps garder une longue période de rétention pour les analyses, j'ai souffert avec MSSQL jusqu'a ce que j'ai déouvert Elasticsearch qui me donne la possibilité de scaler comme je veux .... biensure la contre partie perdre la flexibilité des jointures SQL, mais bon fallait faire un choix

On partage prèsque les mêmes souffrances !!!
MSSQL et puis je suis passé sur ES.
Actuellement je commence à avoir de plus en plus de données et je me demande si je continue à utiliser ES pour les stats et c'est le but de mon post.