Machine learning ML gestion de configuration/crash recovery

Bonjour,

Je fais tourner des machine learning jobs sur un cluster (anomaly detection. sur elastic cloud).

En terme de développement des jobs, mon workflow est compliqué car je ne vois pas comment gérer facilement les versions.

Aujourd'hui, je suis par exemple en R&D, et je développe un ML. Je fais des changements (influenceurs, bucket size, metrics...) mais pour améliorer le modèle, je suis obligé de faire job_1, job_2, etc... si je ne veux pas perdre la conf. et a chaque fois arreter le datafeed, puis delete le job qui ne m'intéresse pas, etc...

Y a t il une best practice pour cela? des retour d'expérience?

D'autre part, j'ai des ML jobs en prod. Si je veux les mettre à jour avec une nouvelle version, alors c'est assez compliqué. On a un script qui arrete le datafeed, stop le ML, nettoie, crée, relance le feed... mais le script part souvent en timeout car arreter le datafeed, et delete le job est très long parfois. et il faut attendre toute la phase de delete pour créer le nouveau job. EN effet, il est référencé dans des dashboards, et donc il faut qu'il ait le bon job_id

Comment faites vous?

merci de vos retours