Doublon logstash

Bonjour,

Dans mon output je met ca comme variable :

document_id => "%{_id}"

Mais comment le mettre dans le output kafka ?

Merci d'avance

Je ne connais pas Kafka mais tu veux mettre ça où dans Kafka?

Tu pourrais toujours le mettre dans ton document comme champ du document si tu en as besoin ensuite dans Kafka je pense. En faisant un add_field dans ton input par exemple.

Merci de ton retour.

Sur mon kibana la structure des données qui arrivent sont
_index
_type
_id
_version

Du coup à chaque fois que le scheduleur passe il reprend toute les données car la valeur de _id change à chaque fois.
Ce qui fais que je me retrouve avec des doublons de la même ligne à chaque passage du scheduleur.

Même avec un last_run_metadata_path ça change rien.

Donc il faudrait que le _id soit supprimé sinon j'aurais toujours ces doublons.

Si vous avez une idées ?

Merci d’avance

J'ai trouvé ce lien qui pourrait vous donner des pistes :
Lien : https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-deduplication.html

Partage ta configuration Logstash stp.

En json sur mon kibana je reçois ca :

{
"_index": "logstash-2021.03.16",
"_type": "doc",
"_id": "AXg6DH3HhprNXuf8xKWZ",
"_version": 1,
"_score": null,
"_source": {
"remarks": "Job completed normally",
"proj_name": "johg",
"job_name": "johg",
"job_id": neuf,
"source_server_user": "johj",
"end_time": "2021-03-16T07:59:07.774Z",
"@timestamp": "2021-03-16T07:59:02.923Z",

Le champ "_id" change à chaque fois que le logstash envoie les données.
De ce fait on à les lignes en plusieurs fois mais avec un "_id" différent

Du coup je voudrais bien supprimé ce champs "_id"

merci je vais regardé ca

Peux-tu:

  • répondre aux questions ?
  • formater ton code proprement ?

Please read this about how to format.

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.