JALS-1

Jeg refaktorerer hvordan vi håndterer trente maskinlæringsmodeller. Vi bruker et verktøy kalt neptune som, etter en trening, lagrer vektene i sin sky. Vektene til en modell representerer det modellen har lært. Når vi skal kjøre inference på ny data (bilder), må vi laste ned disse vektene igjen for å instansiere modellen.

Problembeskrivelse:

Under trening lagres vektene lokalt i en mappestruktur som neptune velger selv, før den lastes opp til sky.
Vi ønsker å bruke den samme mappestrukturen når vi laster ned vektene igjen. Følge standarder
Når vi skal kjøre inference forholder vi oss kun til en “modell-id”, og vet ikke denne mappestrukturen.
Vi kan gjøre kall mot neptune for å få denne mappestrukturen.
For “viktige” modeller/vekter ønsker vi å cache vektene i vår egen bucket, slik at vi ikke er avhengig av neptune i produksjon.

Hovedproblem:

Hvordan gjenskape mappestrukturen uten å gjøre kall til neptune, og uten å hardkode masse greier?

Dette er et kjedelig problem som jeg ikke finner mye kvalitet i. Jeg tror det er grunnet i en forventning om at verktøyet (neptune) burde håndtere dette annerledes, eller tilby mer fleksibilitet enn det gjør.