Productie-AI-stack: RAG, fine-tuning & LLMOps

Een demo die in een vergaderzaal drie vragen beantwoordt, is geen systeem. Een taalmodel veranderen in iets waarop een bedrijf kan bouwen, betekent het samenstellen van een productie-AI-stack: een set lagen die data binnenhalen, het model in jouw realiteit gronden, zijn acties orkestreren en vervolgens — continu — bewijzen dat het zich nog steeds gedraagt. Dit artikel is een technische, leveranciersneutrale rondleiding door die stack zoals die er in 2026 uitziet, met concrete richtlijnen voor RAG, fine-tuning, evaluatie en LLMOps. Het is geschreven voor engineering- en productleiders die willen weten hoe je een productie-AI-stack bouwt, niet alleen welk model dit kwartaal trending is.

Het model zelf is het kleinste deel van het werk. Het meeste van de betrouwbaarheid, kostenbeheersing en compliance zit in de lagen eromheen. Daarom noemen we geen merken maar categorieën — want de juiste vector-store of evaluatietool verandert, de vorm van de architectuur niet.

De lagen van een productie-AI-stack

Zie de stack als zeven lagen, elk met een heldere taak. De discipline is om ze te behandelen als scheidbare zorgen in plaats van één monolithische prompt.

1. Data-ingestie en pipelines

Alles stroomafwaarts hangt af van schone, actuele, goed gestructureerde data. Deze laag haalt uit documenten, databases, API's en eventstreams; parseert en chunkt content; normaliseert metadata; en houdt het vers via incrementele syncs in plaats van eenmalige dumps. Chunkstrategie, deduplicatie en het vastleggen van bron- en timestamp-metadata zijn niet spectaculair, maar bepalen of retrieval later de juiste passage teruggeeft of een verouderde. Sterke data-engineering is het onspectaculaire fundament van de hele stack — het is de focus van ons werk in data-engineering.

2. Vectoropslag, retrieval en RAG

Retrieval-augmented generation (RAG) is hoe je een algemeen model jouw specifieke, private kennis geeft zonder het te hertrainen. Tekst wordt ingebed in vectoren, opgeslagen in een vectorindex, en bij een vraag worden de meest relevante chunks opgehaald en als gegronde context in de prompt geplaatst. In de praktijk is naïeve vectorsearch zelden genoeg: productie-RAG combineert dense (vector) en sparse (keyword) retrieval in een hybride opzet, voegt een re-ranking-stap toe om de beste passages bovenaan te zetten, en gebruikt vaak query-herschrijving zodat de formulering van de gebruiker aansluit op hoe documenten echt geschreven zijn. Goed gedaan vermindert RAG hallucinatie, laat je bronnen citeren en werkt bij zodra je data verandert — zonder het model te hertrainen.

3. De modellaag: prompting vs RAG vs fine-tuning

Hier over-engineeren teams het vaakst. Er zijn drie aparte hefbomen, en ze zijn niet uitwisselbaar. Prompting (inclusief few-shot-voorbeelden en gestructureerde systeemprompts) stuurt gedrag zonder trainingskosten en is voor de meeste taken de juiste eerste zet. RAG injecteert kennis die het model nooit zag. Fine-tuning verandert de gewichten van het model om een consistente stijl, format of smalle vaardigheid aan te leren. Het beslissende inzicht is dat ze verschillende problemen oplossen, en daarom verdient de vraag RAG versus fine-tuning hieronder een eigen sectie. Boven dit alles staat modelselectie en routing — eenvoudige verzoeken naar een klein, goedkoop model sturen en moeilijke naar een groter model is een van de krachtigste kostenmaatregelen die er zijn.

4. Orkestratie en agents

Echte workflows passen zelden in één aanroep. De orkestratielaag rijgt stappen aaneen, roept tools en API's aan, beheert geheugen en bepaalt wat er daarna gebeurt. Aan de eenvoudige kant is dit een deterministische pipeline; aan de autonomere kant een agent die plant en handelt over systemen heen. Agentische patronen zijn krachtig maar leggen de lat hoger — ze hebben rechten, foutafhandeling en human-in-the-loop-checks nodig op alles wat gevoelig is. We gaan hier dieper op in bij AI-agents in productie, en op waar echte autonomie gerechtvaardigd is bij wat zijn AI-agents.

5. De evaluatie-harnas

Je kunt niet verbeteren wat je niet meet, en LLM-output is niet-deterministisch. Een serieuze stack behandelt evaluatie als eersteklas: een samengestelde testset van representatieve inputs en verwacht gedrag, geautomatiseerde scoring (exact-match waar mogelijk, LLM-als-rechter met zorg, retrieval-metrics voor RAG), en regressietests die draaien bij elke prompt- of modelwijziging. Dit is het verschil tussen uitrollen op gevoel en uitrollen op bewijs — de kern van LLM-evaluatie en observability.

6. Observability, tracing en LLMOps

Eenmaal live moet je in het systeem kunnen kijken. LLMOps brengt DevOps-discipline naar taalmodellen: elk verzoek end-to-end tracen (opgehaalde chunks, prompts, tool-aanroepen, tokens, latency, kosten), output loggen, kwaliteit en drift monitoren, en gebruikersfeedback vastleggen zodat productiedata terugvloeit in je evaluatieset. Goede observability maakt van een vaag "het voelt slechter deze week" een specifieke, oplosbare trace.

7. Security en governance

Deze laag is in Europa niet optioneel. Hij dekt PII-detectie en -redactie, toegangscontrole op wat het model en zijn retrieval mogen zien, guardrails tegen prompt-injectie en op output, volledige audit-logs, en afstemming op de EU AI Act en de AVG. Voor Nederlandse en Europese organisaties is precies weten welke data je stack raakt — en dat kunnen aantonen — een voorwaarde voor productie, geen sluitstuk.

RAG versus fine-tuning voor enterprise: een heldere keuze

Dit is de meest gestelde architectuurvraag die we horen, en het eerlijke antwoord is meestal "eerst RAG." Grijp naar RAG als het probleem kennis is: het model heeft feiten nodig die het nooit leerde — je beleid, producten, tickets, contracten — vooral als die kennis vaak verandert en je bronnen wilt citeren. Grijp naar fine-tuning als het probleem gedrag is: een consistente toon, een strikt outputformat, een gespecialiseerde classificatie, of latency en kosten verlagen door een kleiner model een smalle vaardigheid aan te leren die het daarna zonder lange prompt kan. De twee zijn complementair, geen rivalen: een volwassen systeem fine-tunet vaak voor vorm en gebruikt RAG voor feiten. Wat je vrijwel nooit moet doen is fine-tunen om veranderende kennis te injecteren — het is duur, het veroudert, en RAG doet het beter. Deze afweging is de kern van onze praktijk LLM-optimalisatie.

Evaluatie, guardrails en kosten/latency-afwegingen

Drie krachten trekken in elke productiebeslissing tegen elkaar in: kwaliteit, latency en kosten. Een groter model en meer opgehaalde context verhogen de kwaliteit maar ook de latency en uitgaven; agressieve caching en een kleiner gerouteerd model verlagen de kosten maar kunnen de kwaliteit aantasten. Er is geen universeel antwoord — alleen het antwoord dat je evaluatie-harnas bewijst voor jouw taak. Guardrails staan ernaast: inputvalidatie tegen prompt-injectie, outputchecks op PII en beleid, en menselijke review bij acties met hoge inzet. De teams die winnen behandelen dit als meetbare engineeringparameters, afgesteld met data, in plaats van als vaste overtuigingen. Die op bewijs gestoelde houding is precies wat wij bedoelen met design-first AI.

Bouwen of kopen, en waar het heen gaat

Je bouwt niet elke laag. Het pragmatische patroon is om gecommoditiseerde infrastructuur te kopen — model-API's, een managed vector-store, observability-tooling — en de delen te bouwen die je onderscheidend maken: je datapipelines, je retrieval-logica, je evaluatieset en je guardrails. Eigenaarschap over je evaluatie-harnas en je datalaag houdt je porteerbaar terwijl modellen en leveranciers wisselen. Voor een breder beeld van hoe deze patronen evolueren, zie waar AI naartoe gaat in 2026.

Hoe Crux Digits de stack samenstelt

Wij zijn Crux Digits B.V., een in Utrecht gevestigde AI-consultancy en softwarestudio, en we bouwen deze stack in drie bewuste stappen in plaats van één grote gok. Een AI-audit en -strategie (doorgaans rond €2.500) brengt je data, use cases en risico's in kaart en adviseert de slankste architectuur. Een gerichte proof of concept (rond €20.000) levert een werkende, geëvalueerde plak — echte RAG, echte metrics — in weken. Van daaruit verhardt een productie-traject (vanaf €50.000) het tot een gemonitord, gegovernd systeem. Transparante scope staat op onze prijzen-pagina, illustratief werk in onze case studies, en je kunt een gratis consult boeken om je eerste use case in kaart te brengen. Het doel is elke keer hetzelfde: geen demo, maar een stack waarop je in productie kunt vertrouwen.

Veelgestelde vragen

Wat is een productie-AI-stack?

Een productie-AI-stack is de volledige set lagen die een taalmodel veranderen in een betrouwbaar systeem: data-ingestie en pipelines, vectoropslag en retrieval (RAG), de modellaag, orkestratie, een evaluatie-harnas, observability en LLMOps, en security en governance. Het model is het kleinste deel; het meeste van betrouwbaarheid, kostenbeheersing en compliance zit in de omringende lagen.

RAG versus fine-tuning: wat moet een enterprise gebruiken?

Gebruik RAG als het probleem kennis is die het model nooit leerde en die vaak verandert — je beleid, producten of contracten — vooral als je bronnen wilt citeren. Gebruik fine-tuning als het probleem gedrag is: een consistente toon, strikt outputformat of een smalle vaardigheid op een kleiner, goedkoper model. Ze zijn complementair, en je moet vrijwel nooit fine-tunen om veranderende kennis te injecteren, want RAG doet dat beter en blijft actueel.

Wat is LLMOps en waarom is het belangrijk?

LLMOps brengt DevOps-discipline naar taalmodellen: elk verzoek end-to-end tracen, output loggen, kwaliteit en drift monitoren, kosten en latency beheersen, en productiedata en gebruikersfeedback terugvoeren in je evaluatieset. Omdat LLM-output niet-deterministisch is, stelt observability je in staat regressies te betrappen en een live systeem te verbeteren op basis van bewijs in plaats van giswerk.

Hoe evalueer ik een LLM-applicatie voordat die live gaat?

Bouw een evaluatie-harnas: een samengestelde testset van representatieve inputs en verwacht gedrag, geautomatiseerde scoring (exact-match waar mogelijk, zorgvuldige LLM-als-rechter, en retrieval-metrics voor RAG), en regressietests die draaien bij elke prompt- of modelwijziging. Zo verander je uitrollen op gevoel in uitrollen op bewijs en bescherm je kwaliteit terwijl je itereert.

Hoe beïnvloedt de EU AI Act een productie-AI-stack?

Voor Nederlandse en Europese organisaties is governance een voorwaarde voor productie, geen sluitstuk. Je stack heeft PII-detectie en -redactie nodig, toegangscontrole op wat het model en zijn retrieval mogen zien, guardrails tegen prompt-injectie en op output, en volledige audit-logs — alles afgestemd op de EU AI Act en de AVG. Je moet kunnen aantonen welke data het systeem precies raakt en hoe de output wordt gebruikt.

De moderne productie-AI-stack: RAG, fine-tuning, evaluatie en LLMOps