ML in productie: trainen, testen, deployen, monitoren

Een machine learning-model betrouwbaar in productie brengen betekent het omhullen met vier herhaalbare gewoonten: train het op schone, representatieve data; test het zoals software getest wordt, niet alleen op accuratesse maar op gedrag onder echte input; deploy het achter een API of pipeline met versiebeheer en een terugrolplan; en monitor het continu, zodat u prestatieverval en datadrift opmerkt vóór uw gebruikers dat doen. Die lus — de discipline die men MLOps noemt — is wat een knap notebook onderscheidt van een systeem dat u onbemand kunt vertrouwen op een doordeweekse dinsdagochtend. Het model zelf is vaak het kleinste onderdeel.

Heeft u ooit een data scientist iets briljants zien demonstreren, vervolgens gevraagd "mooi, wanneer kunnen klanten dit gebruiken?" en als antwoord een lange stilte gekregen? Dan is dit artikel voor u. De kloof tussen een werkend prototype en een betrouwbaar productiesysteem is reëel, en zij laat meer projecten struikelen dan welk modelleervraagstuk dan ook.

Waarom is een notebookmodel nog niet "af"?

Een Jupyter-notebook is een werkplaats. Het is uitstekend om data te verkennen, ideeën uit te proberen en aan te tonen dat een patroon bestaat. Maar een notebook draait één keer, op één machine, tegen één vaste momentopname van data, met een mens die elke cel in de gaten houdt. Productie is het tegenovergestelde van dat alles.

In productie moet het model:

op een schema of op afroep draaien, zonder dat iemand toekijkt
rommelige, late, ontbrekende of onverwachte input verwerken zonder te crashen
elke keer op dezelfde manier een consistent antwoord geven
bijgewerkt worden zonder dat alles stroomafwaarts breekt
blijven werken terwijl de wereld eromheen verandert

Geen van die zaken is een modelleervraagstuk. Het zijn engineering- en operationele vraagstukken. Precies daarom zijn "we hebben een model" en "we hebben een product" twee heel verschillende zinnen — en daarom kost de tweede meer dan de eerste. We pakken die kloof in heldere cijfers uit in wat een AI-implementatie werkelijk kost.

Stap één: train op data die u kunt vertrouwen

Alles stroomafwaarts erft de kwaliteit van uw trainingsdata, dus hier begint betrouwbaarheid — niet waar het later bovenop wordt geschroefd.

Twee dingen tellen zwaarder dan het algoritme. Ten eerste representativiteit: de data waarop u traint moet lijken op de data die het model in het echt zal tegenkomen. Een churn-model dat alleen op de klanten van vorig jaar is getraind, zal met volle overtuiging fout zitten over die van dit jaar. Ten tweede lekkage: het is verontrustend makkelijk om het model per ongeluk informatie te voeren die het op het beslismoment niet zou hebben, wat oogverblindende testscores oplevert en een waardeloos resultaat in de praktijk.

De weinig glamoureuze waarheid is dat het meeste werk hier loodgieterswerk is. U heeft een betrouwbare manier nodig om de juiste data op te halen, die telkens op dezelfde manier op te schonen, en ruwe velden om te zetten in de features die het model verwacht. Wanneer dat loodgieterswerk ad hoc is, wordt elke hertraining een klein archeologisch project. Wanneer het netjes is geëngineerd, is hertrainen een druk op de knop. Dat fundament is precies waar data engineering voor AI over gaat, en het is de moeite waard om eerlijk te toetsen of uw data AI-klaar is voordat u er iets bovenop bouwt. Vaak is de snelste route simpelweg om de data die u al heeft goed te benutten, in plaats van achter méér data aan te jagen.

Stap twee: test het model als software, niet alleen als wiskunde

Data scientists testen modellen van nature met metrieken — accuratesse, precision, recall, enzovoort. Die tellen mee, maar zijn niet genoeg voor productie. U heeft ook het soort testen nodig dat software engineers vanzelfsprekend vinden.

Een productieklare testsuite dekt meestal een aantal lagen:

Offline-evaluatie. Hoe goed presteert het model op een apart gehouden stuk data dat het tijdens de training nooit zag? Dit is uw kerncijfer voor kwaliteit.
Gedragstests. Doet het model iets verstandigs in specifieke, belangrijke gevallen? Deze schrijft u als unittests: voer een bekende input in, controleer op een redelijke output. Een leenmodel mag nooit een aanvrager met overduidelijk frauduleuze input goedkeuren, hoe hoog de algehele accuratesse ook is.
Slice-analyse. Zijn de prestaties gelijkmatig over de groepen die u belangrijk vindt — regio's, klanttypen, productlijnen? Een gemiddelde van 85% kan een segment verbergen waarin het model op 50% zit en stilletjes schade aanricht.
Pipelinetests. Gedraagt het dataloodgieterswerk zich wel? Als een kolom van type verandert of een feed leeg binnenkomt, moet het systeem luid en veilig falen, niet stil onzin produceren.

Dit is ook het moment waarop u, voordat u live gaat, bepaalt wat "goed genoeg om uit te brengen" betekent — en idealiter hoe het model zich verhoudt tot de mensen die het werk vandaag doen, een sanity check die we verkennen in AI benchmarken tegen menselijke experts. Die lat vooraf afspreken bespaart later een hoop gediscussieer.

Stap drie: deploy met een versienummer en een nooduitgang

Pull quote: Die lus onderscheidt een knap notebook van een systeem dat je onbemand kunt vertrouwen op een doordeweekse dinsdagochtend. — Crux Digits

Bij deployment houdt een model op een bestand op iemands laptop te zijn en wordt het een service. Meestal leeft het achter een API: een applicatie stuurt data in en krijgt een voorspelling terug. Soms draait het als een batchjob die 's nachts alles van een score voorziet. Hoe dan ook, een paar principes houden u uit de problemen.

Versioneer alles. Niet alleen de code, maar het model zelf én de data waarop het is getraind. Wanneer iets zich over drie maanden vreemd gedraagt, wilt u precies weten welk model welk antwoord produceerde. "Welke versie stond er in maart live?" hoort een exact antwoord te hebben.

Houd een terugrolpad open. Nieuwe modelversies gedragen zich in de praktijk soms slechter dan tijdens het testen. Het vermogen om direct terug te keren naar de vorige versie is geen luxe; het is het verschil tussen een non-event van vijf minuten en een slechte week.

Rol geleidelijk uit. In plaats van elke gebruiker in één keer op een nieuw model te zetten, stuurt u er eerst een deel van het echte verkeer naartoe — soms een shadow- of canary-deployment genoemd — en vergelijkt u. Houdt het stand, dan verbreedt u het. Doet het dat niet, dan heeft u nauwelijks iets verloren.

Bepaal waar het draait. Een model dat live voorspellingen serveert heeft andere infrastructuur nodig dan een model dat één keer per dag een rapport scoort. Latency, kosten en hoe vaak de data wordt bijgewerkt bepalen samen het antwoord. Dit is de laag waar de productie-AI-stack die we elders beschrijven samenkomt — het model is één component te midden van meerdere.

Een verstandige manier om deze stap te bereiken zonder alles op het spel te zetten, is het idee eerst klein te bewijzen. Een strak afgebakende proof of concept vertelt u of het überhaupt de moeite waard is om naar productie te brengen, vóórdat u geld uitgeeft aan de volledige bouw.

Stap vier: monitor, want modellen rotten stilletjes weg

Dit is het deel dat mensen het meest verrast. Een model is geen brug die u één keer bouwt en vergeet. Het lijkt meer op een tuin: laat u het met rust, dan gaat het achteruit. We hebben een heel stuk geschreven over waarom ML-modellen stoppen met werken na de training, maar de korte versie is dat de wereld beweegt en het model niet.

De technische naam voor de belangrijkste boosdoener is drift, en die komt in twee smaken.

Datadrift is wanneer de input verandert. Het gedrag van uw klanten verschuift, een nieuw product wordt gelanceerd, prijzen bewegen, een concurrent verandert de markt. Het model doet nog precies wat het geleerd heeft, maar het heeft dat geleerd op een wereld die niet meer bestaat.

Conceptdrift is subtieler: de relatie tussen input en uitkomst verandert. Wat vroeger een verkoop voorspelde, doet dat niet meer. De cijfers zien er hetzelfde uit; hun betekenis is verschoven.

Monitoren op drift betekent een paar dingen continu in de gaten houden:

Inputverdelingen. Hebben de features die vandaag binnenkomen dezelfde vorm als die waarop het model is getraind? Een plotselinge verschuiving is een vroege waarschuwing.
Voorspellingspatronen. Zegt het model ineens veel vaker (of minder vaak) "ja" dan voorheen?
Echte uitkomsten, waar u die kunt krijgen. Wanneer de waarheid uiteindelijk binnenkomt — de klant is wel of niet vertrokken — heeft het model dan nog gelijk? Dit is de gouden standaard, en die loopt altijd achter, wat precies de reden is dat de eerdere signalen ertoe doen.
Het saaie operationele werk. Latency, foutpercentages, mislukte datafeeds. Een model dat een time-out geeft is net zo stuk als een model dat ernaast zit.

Goede monitoring sluit de lus: wanneer drift een drempel overschrijdt, krijgt u een alert, onderzoekt u het, en vaak hertraint u op verse data en deployt u opnieuw — wat u meteen terugbrengt naar stap één. Goed gedaan is die hele cyclus grotendeels geautomatiseerd. Mensen komen erbij wanneer er een oordeel nodig is, niet voor routinematig babysitten.

Hoe past dit bij de AVG en de Europese manier van werken?

Werkt u in Nederland of ergens anders in de EU, dan is productie ook het moment waarop compliance concreet wordt. Het model neemt nu beslissingen die echte mensen raken, dus een paar vragen houden op abstract te zijn.

U moet weten welke persoonsgegevens het model gebruikt en waarom, een helder vastgelegd overzicht bijhouden van hoe beslissingen tot stand komen, en een uitkomst kunnen uitleggen als iemand erom vraagt. Dit vanaf de trainingsfase inbouwen — de persoonsgegevens die u gebruikt minimaliseren, uw pipeline documenteren, een mens in de lus houden voor ingrijpende beslissingen — is veel goedkoper dan het achteraf inbouwen na de lancering. Het is een van de redenen dat wij datagovernance als onderdeel van de bouw beschouwen, niet als een losse juridische bijgedachte. Traint u op bedrijfsdata, dan gaat onze notitie over dat op een AVG-conforme manier doen hier dieper op in.

Hoe ziet dit eruit met een klein, verstandig team?

U heeft geen platformteam van vijftig mensen nodig om dit goed te doen. U heeft nodig dat de lus bestaat en dat iemand er eigenaar van is. Voor de meeste middelgrote organisaties betekent dat:

een schone, herhaalbare manier om data op te halen en voor te bereiden (de data engineering-laag)
een getest model met een afgesproken kwaliteitslat
een deployment die geversioneerd en omkeerbaar is
monitoring die een echt mens waarschuwt wanneer er iets drift
een hertrainingspad dat grotendeels een druk op de knop is, geen project

Krijg die vijf dingen goed voor elkaar en uw machine learning houdt op een demo te zijn en wordt infrastructuur. Weegt u nog af of een probleem überhaupt machine learning nodig heeft, dan zijn ons stuk over machine learning versus AI en de bredere blik in machine learning voor het bedrijfsleven goede plekken om te beginnen voordat u aan dit alles begint.

Waar Crux Digits past

Wij zijn een klein AI-consultancybureau in de regio Utrecht, en we bouwen dit soort productiesystemen als projecten met vaste scope — niet door contractanten bij u op kantoor te parkeren. Dat betekent doorgaans een eerlijke AI-audit & strategie om te checken of het idee reëel is, een proof of concept om het te de-risken, en daarna een productielancering met de train-test-deploy-monitor-lus vanaf dag één ingebouwd. Hoe dat is opgezet, ziet u op onze prijzenpagina.

Heeft u een model dat vastzit in een notebook, of een vermoeden dat een proces in uw organisatie stilletjes om er een vraagt? Vertel het ons. Wij vertellen u eerlijk of het de moeite waard is om te bouwen — en zo ja, hoe betrouwbare productie er voor uw situatie precies uitziet.

Veelgestelde vragen

Wat is MLOps in eenvoudige termen?

MLOps is het geheel aan werkwijzen dat een machine learning-model betrouwbaar laat werken in de echte wereld, niet alleen in een notebook. Het omvat het model trainen op goede data, het testen als software, het deployen als een geversioneerde service met een terugrolplan, en het continu monitoren op prestatieverval. Zie het als DevOps toegepast op machine learning, met de extra kanttekening dat het model in de loop van de tijd stilletjes achteruit kan gaan, zelfs als de code niet verandert.

Waarom wordt een machine learning-model slechter na de uitrol?

Omdat de wereld waarop het is getraind blijft veranderen terwijl het model bevroren blijft. Dit heet drift. Datadrift treedt op wanneer de input verschuift — nieuw klantgedrag, nieuwe producten, gewijzigde prijzen. Conceptdrift treedt op wanneer de relatie tussen input en uitkomst verandert, zodat oude patronen niet meer goed voorspellen. Geen van beide is een bug in het model; het is simpelweg getraind op een momentopname van een bewegend doelwit, wat precies de reden is dat doorlopende monitoring en hertraining ertoe doen.

Hoe monitort u een machine learning-model op drift?

U houdt verschillende signalen continu in de gaten. Volg of de binnenkomende data lijkt op de trainingsdata, of de voorspellingen van het model onverwacht verschuiven en — wanneer echte uitkomsten uiteindelijk binnenkomen — of het nog accuraat is. Daarnaast monitort u de operationele basis zoals latency, foutpercentages en mislukte datafeeds. Wanneer een van deze een drempel overschrijdt, waarschuwt een alert een mens om te onderzoeken, en de gebruikelijke oplossing is hertrainen op verse data en opnieuw deployen.

Hoe lang duurt het om een model van notebook naar productie te brengen?

Dat hangt veel meer af van de data en de omliggende systemen dan van het model zelf. Een schone, goed begrepen use case met kant-en-klare data kan binnen enkele weken een betrouwbare productielancering bereiken; een rommelig datalandschap kan aanzienlijk langer duren. Een veelvoorkomend en verstandig pad is om eerst een korte proof of concept met vaste scope te draaien om te bewijzen dat het idee de moeite waard is om naar productie te brengen, en daarna de volledige train-test-deploy-monitor-lus te bouwen zodra de waarde duidelijk is.

Heb ik een groot data science-team nodig om ML in productie te draaien?

Nee. U heeft nodig dat de productielus bestaat en dat iemand er eigenaar van is, niet een groot platformteam. Voor de meeste middelgrote organisaties betekent dat een herhaalbare datapipeline, een getest model met een afgesproken kwaliteitslat, een geversioneerde en omkeerbare deployment, monitoring die een echt persoon waarschuwt wanneer er iets drift, en een hertrainingspad dat dicht bij een druk op de knop ligt. Een kleine, gerichte opzet die goed wordt gerund verslaat een grote die slordig wordt gerund.

Machine learning in productie: trainen, testen, deployen, monitoren