J'ai une entrée sous logstash par commande. La commande est programmée toutes les 5 minutes qui me renvoi des résultats anciens et de nouvelles données (avec des champs dates, user, webservice).
Pour éviter les doublons, je voudrai donc indexer seulement les nouveaux résultats de mon input.
Le problème c'est que ça ne marche pas, il n'y a aucunes insertions de documents.
Quelle est la meilleure façon de faire pour éviter d’insérer des doublons à chaque indexation ? Mettre à jour les données ou les remplacer, et comment ?
Je ne comprends pas la remarque. Quel rapport avec l'alias?
Tu veux dire qu'il vaut mieux indexer à nouveau dans un index vierge et utiliser un alias pour passer du vieil index au nouveau?
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.