Doublon logstash

lali · March 19, 2021, 9:28pm

Bonjour,

Dans mon output je met ca comme variable :

document_id => "%{_id}"

Mais comment le mettre dans le output kafka ?

Merci d'avance

dadoonet · March 20, 2021, 8:27am

Je ne connais pas Kafka mais tu veux mettre ça où dans Kafka?

Tu pourrais toujours le mettre dans ton document comme champ du document si tu en as besoin ensuite dans Kafka je pense. En faisant un add_field dans ton input par exemple.

lali · March 20, 2021, 10:05am

Merci de ton retour.

Sur mon kibana la structure des données qui arrivent sont
_index
_type
_id
_version

Du coup à chaque fois que le scheduleur passe il reprend toute les données car la valeur de _id change à chaque fois.
Ce qui fais que je me retrouve avec des doublons de la même ligne à chaque passage du scheduleur.

Même avec un last_run_metadata_path ça change rien.

Donc il faudrait que le _id soit supprimé sinon j'aurais toujours ces doublons.

Si vous avez une idées ?

Merci d’avance

ahmed_charafouddine · March 20, 2021, 10:22am

J'ai trouvé ce lien qui pourrait vous donner des pistes :
Lien : https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-deduplication.html

dadoonet · March 20, 2021, 11:24am

Partage ta configuration Logstash stp.

lali · March 20, 2021, 1:13pm

En json sur mon kibana je reçois ca :

{
"_index": "logstash-2021.03.16",
"_type": "doc",
"_id": "AXg6DH3HhprNXuf8xKWZ",
"_version": 1,
"_score": null,
"_source": {
"remarks": "Job completed normally",
"proj_name": "johg",
"job_name": "johg",
"job_id": neuf,
"source_server_user": "johj",
"end_time": "2021-03-16T07:59:07.774Z",
"@timestamp": "2021-03-16T07:59:02.923Z",

Le champ "_id" change à chaque fois que le logstash envoie les données.
De ce fait on à les lignes en plusieurs fois mais avec un "_id" différent

Du coup je voudrais bien supprimé ce champs "_id"

lali · March 20, 2021, 1:15pm

merci je vais regardé ca

dadoonet · March 20, 2021, 1:35pm

Peux-tu:

répondre aux questions ?
formater ton code proprement ?

Please read this about how to format.

Topic		Replies	Views
Duplicated data in kafka using logstash Logstash	1	1160	August 10, 2018
Filebeat/Logstash/Elastic : éviter les doublons Discussions en français	2	1552	February 9, 2016
Is it possible detect duplicate message in Kafka topic with logstash Logstash	1	522	July 31, 2019
Duplicate Records in Kibana Logstash	0	252	March 23, 2020
Предотвратить дупликаты Вопросы на русском языке	1	766	January 22, 2018

Doublon logstash

Related topics