ElasticSearch & Statistiques

RSTMAN · September 7, 2020, 9:36am

Bonjour,

je ne suis pas un spécialiste d'ElasticSearch mais je l'utilise dans mon milieu professionnel :).

je voulais avoir des retours par rapport à l'utilisation de ES dans le calcul des statistiques: est ce que c'est adapté pour faire ce genre de traitement sur un volume de données de quelques To et les limites.

Merci par avance de votre retour.

ylasri · September 7, 2020, 9:48am

Personnellement je l'ai utilisé dans pas mal de cas d'utilisation pour remplacer des systèmes de BI et datamining existants, la différence majeure est que ES n'est pas un model relationnel et donc l'approche change un peu au niveau ingestion des données où va falloir flatter les données et enrichir avec le maximul d'info pour avoir toutes les possibilité d'analyse.

Si vous pouvez fournir plus de détails sur votre use case, on peut échnager sur les possibilités

RSTMAN · September 7, 2020, 9:54am

Bonjour Yassine LASRI,

Merci pour votre réponse.

pour le problème non relationnel pour moi ce n'est pas un soucis, je vais trouver un moyen.

je voulais savoir juste les bonnes pratiques, est ce que c'est adapté pour faire ces traitements et les limites.

Aujourd'hui j'ai quelques To des données et demain peut-être plus.

Concernant les données, en gros je vais avoir un objet et dedant plusieurs propriétés et je dois faire des stats sur ces propriétés.

je reste à votre disposition si ce n'est pas claire

ylasri · September 7, 2020, 10:05am

Parfait, les bonnes pratiques pour moi :

Sizing de votre cluster selon la volumétrie à traiter, il y a l'architecture hot/warm (tu peux aller sur 1Go de RAM pour chaque 32Go de data pour les noeuds hot, et tu peux aller jusqu'a 90Go de data pour chaque 1Go de RAM pour les noeuds warm), check here
Définir le mapping de vos données, c'est hyper important pour avoir des temps de réponse rapide
Calculer ce qui peut etre calculer au moment de l'ingest (logstash ou ingest pipeline)
Enrichir tout ce qui peut etre enrichit au moment de l'ingest (logstash ou pipeline enrichi policy)
Utiliser TSVB à chaque fois que les visulisation de Kibana ont une limite, au pire de cas tu as toujours vega pour faire ce que tu veux sans limite
Pense à Tranform
Pense aussi à canevas et SQL

RSTMAN · September 7, 2020, 10:16am

Merci Yassine,

pour vous elasticsearch est adapté à ce genre de traitements en plus de la recherche textuelle en respectant les points de votre post.

Merci pour les conseils aussi.
Pour la visualisation des données, on est plus sur une IHM faite maison ...

j'ai une question pourquoi vous passez d'un des systèmes de BI à ES ? vous nêtes pas oubligé de répondre

Merci.

ylasri · September 7, 2020, 10:22am

Je travail bcp dans le contexte telecom, ou je sui sobligé de traiter un volume important de logs et au méme temps garder une longue période de rétention pour les analyses, j'ai souffert avec MSSQL jusqu'a ce que j'ai déouvert Elasticsearch qui me donne la possibilité de scaler comme je veux .... biensure la contre partie perdre la flexibilité des jointures SQL, mais bon fallait faire un choix

RSTMAN · September 7, 2020, 10:42am

On partage prèsque les mêmes souffrances !!!
MSSQL et puis je suis passé sur ES.
Actuellement je commence à avoir de plus en plus de données et je me demande si je continue à utiliser ES pour les stats et c'est le but de mon post.

Topic		Replies	Views
Design help Elasticsearch	0	337	January 21, 2014
Importer 2 milliards de données dans Elasticsearch Discussions en français	1	888	January 8, 2019
Statistics using ES on group of data Elasticsearch	0	328	September 3, 2013
Visualize statistics of MS Sql tables using ElasticSearch Elasticsearch	0	349	December 30, 2014
Using Pig/Spark on ElasticSearch (as External Storage) Elasticsearch	2	462	October 12, 2014

ElasticSearch & Statistiques

Related topics