Machine learning ML gestion de configuration/crash recovery

dao · January 18, 2023, 10:17am

Bonjour,

Je fais tourner des machine learning jobs sur un cluster (anomaly detection. sur elastic cloud).

En terme de développement des jobs, mon workflow est compliqué car je ne vois pas comment gérer facilement les versions.

Aujourd'hui, je suis par exemple en R&D, et je développe un ML. Je fais des changements (influenceurs, bucket size, metrics...) mais pour améliorer le modèle, je suis obligé de faire job_1, job_2, etc... si je ne veux pas perdre la conf. et a chaque fois arreter le datafeed, puis delete le job qui ne m'intéresse pas, etc...

Y a t il une best practice pour cela? des retour d'expérience?

D'autre part, j'ai des ML jobs en prod. Si je veux les mettre à jour avec une nouvelle version, alors c'est assez compliqué. On a un script qui arrete le datafeed, stop le ML, nettoie, crée, relance le feed... mais le script part souvent en timeout car arreter le datafeed, et delete le job est très long parfois. et il faut attendre toute la phase de delete pour créer le nouveau job. EN effet, il est référencé dans des dashboards, et donc il faut qu'il ait le bon job_id

Comment faites vous?

merci de vos retours

system · February 15, 2023, 10:18am

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Machine learning jobs et saved objects Discussions en français	7	505	October 3, 2022
ML job behavior changed Discussions en français	2	648	January 6, 2022
Elastic Observability Engineer training - Lab 6.1 Elastic Training	3	353	September 17, 2022
Cant' import Machine Learning Anomaly Jobs - I have Enterprise Cloud Subscription Kibana elastic-stack-machine-learning	8	1075	March 3, 2021
Machine learning 6.7 - elastic cloud - out of memory Elasticsearch elastic-stack-machine-learning	2	444	June 3, 2019

Machine learning ML gestion de configuration/crash recovery

Related topics