Hoe bouw je een AI-agent (stap voor stap)

Een AI-agent bouwt u door een taalmodel een helder doel te geven, een set tools die het kan aanroepen (API's, databases, functies), geheugen om context vast te houden, en een lus waarin het kan plannen, handelen, het resultaat bekijken en het opnieuw proberen tot het doel is bereikt. Daaromheen plaatst u guardrails en momenten van menselijke goedkeuring, zodat het veilig en voorspelbaar blijft. Het lastige is niet de eerste demo, maar het betrouwbaar, meetbaar en betaalbaar maken van de agent in productie.

Eerst: wat telt eigenlijk als een "agent"?

Een AI-agent is een systeem dat een taalmodel gebruikt om te beslissen wat de volgende stap is, vervolgens een actie uitvoert in de echte wereld (een tool of API aanroepen), bekijkt wat er is gebeurd, en dat herhaalt — in plaats van enkel één blok tekst terug te geven. Het model is de redeneermotor; de tools zijn de handen. Stuurt u alleen een prompt en krijgt u een alinea terug, dan heeft u een chatbot, geen agent.

Dat onderscheid is belangrijk, want het verandert hoe u het systeem ontwerpt en test. Een chatbot faalt door iets verkeerds te zeggen. Een agent faalt door iets verkeerds te *doen* — de e-mail versturen, het record bijwerken, de bestelling terugstorten. Dat verhoogt de inzet van guardrails en evaluatie, en dat is de rode draad door de rest van deze gids.

Wilt u eerst de conceptuele basis voordat u in de bouwdetails duikt, begin dan met wat AI-agents zijn en hoe ze verschillen van op regels gebaseerde RPA. Kort gezegd: RPA volgt een vast script, een agent redeneert over een open einddoel. Deze gids gaat ervan uit dat u de agent-variant al wilt en richt zich op de vraag hoe u die goed bouwt.

De kernarchitectuur: vijf bewegende delen

Bijna elke nuttige agent bestaat uit dezelfde vijf componenten. U kunt ze bouwen met welk framework dan ook, of helemaal zonder — de onderdelen tellen zwaarder dan de bibliotheek.

Het LLM-brein. Een model (van het kaliber GPT-4, Claude, Gemini, of een open-weight model zoals Llama) dat het doel interpreteert en de volgende stap bepaalt. Hier zit het redeneren, plannen en het begrijpen van natuurlijke taal.
Tools / function calling. De acties die de agent mag uitvoeren — een zoek-API, een database-query, een rekenfunctie, een agendaboeking, een interne functie. U stelt elke tool beschikbaar met een naam, een beschrijving en een getypeerd schema; het model kiest er één en vult de argumenten in.
Geheugen en toestand. Kortetermijncontext (het lopende gesprek en tussenresultaten) plus geheugen voor de langere termijn (eerdere interacties, opgehaalde documenten, voorkeuren van de gebruiker). Retrieval-augmented generation hoort hier vaak thuis — zie RAG versus fine-tuning voor welke aanpak past.
De plan- en uitvoeringslus. De besturingsstroom die *denken → handelen → waarnemen → herhalen* draait totdat het doel is bereikt of een stopconditie ingaat. Deze lus is het hart van "agentic" gedrag.
Guardrails. De regels en controles die de agent binnen veilige grenzen houden — invoervalidatie, uitvoerfiltering, rechtenbegrenzing op tools, uitgavenlimieten en momenten van menselijke goedkeuring.

Krijgt u deze vijf goed voor elkaar, dan heeft u een agent. Het resterende werk is om elk onderdeel betrouwbaar genoeg te maken om onbemand te draaien, en dat is lastiger dan ze aan elkaar knopen.

Stap 1: bepaal het doel en een succesmaatstaf

Schrijf vóór elke regel code op hoe "klaar" eruitziet, in één zin die een niet-techneut begrijpt — "een terugbetalingsverzoek van een klant volledig afhandelen" of "een eerste opzet van een offerte maken op basis van een klantbriefing". Een vaag doel levert een vage agent op die gaat zwerven.

Hang er vervolgens een meetbare succesmaatstaf aan. Niet "de agent moet behulpzaam zijn", maar "lost het verzoek in 90% van de gevallen correct op zonder escalatie" of "levert een opzet die de consultant met kleine aanpassingen accepteert". Dat getal gebruikt u om te beslissen of de agent goed genoeg is om live te gaan, en om later teruggang te betrappen. Teams die deze stap overslaan, eindigen met discussies over gevoel in plaats van bewijs.

Bak de scope klein. Een smalle agent die één taak betrouwbaar doet, verslaat een brede die tien taken onvoorspelbaar uitvoert. U kunt de scope altijd verbreden zodra de smalle versie vertrouwen heeft verdiend. Dezelfde discipline die u bij het afbakenen van een AI-proof of concept zou hanteren, geldt hier: kies de ene workflow waar succes onmiskenbaar is en de waarde echt, bewijs het daar, en weersta de drang om op dag één de hele oceaan leeg te willen scheppen.

Stap 2: kies de tools en API's die het mag aanroepen

Maak een lijst van de concrete acties die de agent nodig heeft om zijn doel te bereiken, en stel elke actie beschikbaar als tool met een heldere naam, een beschrijving in gewone taal en een getypeerd invoerschema. De kwaliteit van die beschrijvingen telt zwaarder dan mensen verwachten — het model kiest tools door ze te lezen, dus een vage beschrijving leidt tot de verkeerde aanroep.

Twee regels besparen veel ellende. Ten eerste: geef de agent het *minste* aantal tools waarmee de klus geklaard is; elke extra tool is een extra manier om de mist in te gaan en weer iets om te testen. Ten tweede: behandel schrijfacties (alles wat data of geld verandert) anders dan leesacties — dat zijn de acties die goedkeuringsmomenten nodig hebben, die we hieronder behandelen.

Dit is ook waar de realiteit van integraties toeslaat. De agent is alleen zo capabel als de systemen die hij kan bereiken, dus reken op authenticatie, rate limits en foutafhandeling bij elke API. Degelijke data engineering onder een agent is meestal wat een demo onderscheidt van iets dat het contact met echte systemen overleeft.

Stap 3: ontwerp de prompt en het beleid

De systeemprompt is de functieomschrijving en het regelboek van de agent. Daarin staat de rol, het doel, de beperkingen ("keer nooit een terugbetaling boven EUR 200 uit zonder goedkeuring"), de toon, en hoe te handelen bij twijfel — bij voorkeur "vraag het of escaleer" in plaats van gokken. Dit is beleid, geen versiering; hier wordt het grootste deel van de betrouwbaarheid van een agent gewonnen of verloren.

Beschrijf expliciet de redeneerstijl die u wilt. Het model vragen om eerst zijn stappen te plannen voordat het handelt, en om zijn eigen uitvoer tegen het doel te toetsen, vermindert aantoonbaar domme fouten. Wees ook duidelijk over faalgedrag: wat moet het doen als een tool een fout teruggeeft, als data ontbreekt, of als het verzoek buiten de scope valt?

Houd de prompt onder versiebeheer, net als code. U zult er tientallen keren aan sleutelen, en u wilt precies weten welke versie welk gedrag opleverde wanneer er iets verandert.

Stap 4: voeg geheugen toe, daarna guardrails en goedkeuringsmomenten

Bepaal wat de agent moet onthouden. Voor veel taken is het lopende gesprek plus een paar opgehaalde documenten genoeg. Voor andere — een supportagent die een terugkerende klant moet herkennen — heeft u persistent geheugen en een retrievallaag over uw eigen data nodig. Voeg geen langetermijngeheugen toe dat u niet nodig heeft; het kost geld en vormt een ingang waarlangs verouderde of onjuiste context kan binnensluipen.

Nu het deel dat een agent veilig maakt om onbemand te draaien.

Rechtenbegrenzing. Beperk welke tools automatisch mogen draaien en welke akkoord vereisen. Alleen-lezen-acties mogen meestal vrijuit draaien; onomkeerbare of kostbare acties niet.
Menselijke controle op kritieke momenten. Plaats goedkeuringsstappen op de momenten met hoge inzet — voordat er externe communicatie uitgaat, geld wordt verplaatst of data wordt verwijderd. Een goedgeplaatst "bevestig vóór actie" maakt van een eng autonoom systeem een betrouwbare assistent.
Invoer- en uitvoervalidatie. Schoon wat er binnenkomt (prompt-injection is een reële aanval) en controleer wat eruit komt voordat het een klant of database bereikt.
Uitgaven- en luslimieten. Begrens het aantal stappen en het tokengebruik per taak, zodat een in de war geraakte agent niet eindeloos kan blijven rondlopen of een rekening laat oplopen.

Voor gereguleerd werk binnen de EU zijn deze controles niet optioneel — zie EU AI Act-compliance in Nederland voor welke verplichtingen gelden voor systemen met een hoger risico en het tijdpad waarmee u rekening houdt.

Stap 5: evalueer voordat u het vertrouwt

Een agent die het goed doet in vijf handmatig gekozen gevallen, zal u in productie verrassen. Bouw vroeg een evaluatieset op: een verzameling realistische invoer met bekende, goede uitkomsten die u na elke wijziging opnieuw kunt draaien. Dit is de waardevolste gewoonte in agentontwikkeling en degene die de meeste teams overslaan, omdat testgevallen schrijven minder spannend is dan een verse demo zien slagen.

Meet tegen de succesmaatstaf die u in stap één heeft bepaald. Houd niet alleen bij of de agent het juiste antwoord bereikte, maar ook hoe — riep hij de juiste tools aan, in een logische volgorde, zonder onnodig veel stappen te verbranden? Voor open uitvoer kunt u een LLM als beoordelaar inzetten tegen een rubriek, aangevuld met menselijke beoordeling op een steekproef. Het doel is een getal dat u genoeg vertrouwt om releases aan te toetsen.

Behandel evaluatie als doorlopend, niet als eenmalige horde. Modellen veranderen, uw data verandert, en er duiken randgevallen op die u nooit had bedacht. Een regressiesuite die u bij elke promptwijziging draait, is wat voorkomt dat de kwaliteit stilletjes wegdrijft.

Frameworks en aanpakken, op hoofdlijnen

U heeft geen framework nodig om een agent te bouwen — een lus, een LLM-API met function calling en een paar tools vormen al een complete agent. Frameworks helpen bij orchestratie, geheugen en observability zodra het groeit, maar elk voegt eigen concepten en lock-in toe, dus grijp er niet op dag één naar.

Op hoofdlijnen vallen de opties in een paar kampen. Orchestratiebibliotheken zoals LangChain of LlamaIndex geven u kant-en-klare abstracties voor tools, geheugen en retrieval. Graafgeoriënteerde frameworks zoals LangGraph modelleren de agent als expliciete toestanden en overgangen, wat helpt wanneer de besturingsstroom complex wordt. Multi-agent frameworks (CrewAI, AutoGen en vergelijkbaar) laten meerdere gespecialiseerde agents samenwerken. En de SDK's van de modelaanbieders zelf leveren steeds vaker native function calling en agent-primitieven die een hoop gevallen afdekken met minder abstractie.

Kies op basis van uw team en uw probleem, niet op basis van de hype. Een gangbaar, verstandig pad: prototype met de kale provider-SDK om het gedrag te begrijpen, en stap pas over op een framework wanneer orchestratie of observability echt pijn doet. De architectuur — de vijf onderdelen hierboven — overleeft welke bibliotheek u ook kiest, en de frameworkmarkt beweegt snel genoeg dat uw ontwerp inzetten op één specifieke tool op zichzelf al een risico is. Wat u ook kiest, houd uw tooldefinities, prompts en evaluatieset frameworkonafhankelijk, zodat u de orchestratielaag later kunt vervangen zonder het feitelijke gedrag van de agent te herschrijven.

De lastige delen (en waarom de meeste agents hier vastlopen)

Een werkende demo bouwen kost een weekend. Eentje bouwen die u echte klanten en echt geld zou laten raken, is het eigenlijke werk, en daar onderschatten de meeste projecten de inspanning. Vier problemen duiken telkens op.

Betrouwbaarheid. LLM's zijn niet-deterministisch; dezelfde invoer kan andere acties opleveren. U beheerst dit met strak begrensde toolschema's, validatie, retries en stevige evaluatie — niet met hopen.
Hallucinatie. Het model kan feiten verzinnen of een tool aanroepen met verzonnen argumenten. Antwoorden verankeren in opgehaalde data en uitvoer toetsen aan bronnen houdt dit in toom.
Kosten. Elke redeneerstap is tokens, en agents die in een lus blijven, kunnen snel duur worden. U beheerst het met stapslimieten, kleinere modellen voor eenvoudige deeltaken, caching en het bijsnijden van context.
Monitoring in productie. Eenmaal live heeft u logging nodig, tracing van elke toolaanroep, alerts bij storingen en een manier om te beoordelen wat de agent daadwerkelijk deed. Een agent die u niet kunt waarnemen, is een agent die u niet kunt vertrouwen.

Dat laatste punt verdient eigen aandacht; we gaan er diep op in bij AI-agents draaien in productie. Het gat tussen een veelbelovende pilot en een betrouwbaar systeem zit vrijwel volledig in monitoring, evaluatie en operationele discipline.

Build vs buy — en wanneer schakelt u een partner in?

Koop het standaardstuk, bouw het onderscheidende. Doet een kant-en-klare tool de klus al — een support- of planningsassistent die in uw workflow past — dan is kopen sneller en goedkoper, en slaat u de onderhoudslast over. Bouw wanneer de agent uw eigen data raakt, uw specifieke processen, of een capaciteit die u een voorsprong geeft die concurrenten niet zomaar kunnen aanschaffen.

Wees ook eerlijk over de onderhoudsstaart. Een agent is geen project dat u oplevert en vergeet; het vraagt evaluatie, monitoring en bijsturen naarmate modellen en data verschuiven. Die doorlopende kosten horen vanaf het begin in de build-vs-buy-afweging, niet als verrassing een half jaar later.

Bouwt u wel en wilt u de dure leergeld-lessen overslaan, dan verdient een gericht bureau hier zijn kosten terug. Bij Crux Digits draaien we AI-agentontwikkeling in Nederland als projecten met vaste scope en transparante prijzen — een AI-audit en -strategie van EUR 2.500 om te bepalen of een agent überhaupt het juiste middel is, een proof of concept tegen vaste prijs om de waarde op uw data te bewijzen, en een productielancering pas zodra de evaluatiecijfers dat rechtvaardigen. U ziet de volledige prijzen vooraf; er zijn geen dedicated teams of open-einde retainers.

Twijfelt u of een agent überhaupt in uw proces past, dan is dat eerste gesprek gratis — plan een adviesgesprek en we vertellen u eerlijk of u moet bouwen, kopen of wachten.

Veelgestelde vragen

Hoe moeilijk is het om een AI-agent te bouwen?

Een basis-agent — een LLM met function calling en een eenvoudige lus — bouwt een bekwame developer in een dag. Het lastige is het betrouwbaar, meetbaar en goedkoop genoeg maken om in productie te draaien. Dat werk, vooral evaluatie en monitoring, is waar de meeste echte inspanning in gaat zitten.

Heb ik een framework zoals LangChain nodig om een AI-agent te bouwen?

Nee. Een lus, een LLM-API met function calling en een paar goed beschreven tools vormen al een complete agent. Frameworks zoals LangChain, LlamaIndex of LangGraph helpen bij orchestratie, geheugen en observability naarmate de complexiteit groeit, maar ze voegen eigen abstracties toe; vaak kunt u het beste eerst zonder prototypen en er pas naar grijpen wanneer u de pijn voelt.

Wat is het verschil tussen een AI-agent en een chatbot?

Een chatbot geeft tekst terug als antwoord op een prompt. Een agent beslist tot acties en voert ze uit — tools aanroepen, systemen bevragen, records bijwerken — bekijkt vervolgens het resultaat en gaat door tot het doel is bereikt. Omdat een agent in de echte wereld handelt, heeft hij stevigere guardrails en evaluatie nodig dan een chatbot.

Hoe voorkom je dat een AI-agent iets schadelijks doet?

Met gelaagde guardrails: beperk welke tools automatisch mogen draaien, voeg menselijke goedkeuringsmomenten toe vóór acties met hoge inzet zoals geld versturen of data verwijderen, valideer invoer en uitvoer, en begrens het aantal stappen en de uitgaven per taak. In de EU dragen systemen met een hoger risico bovendien verplichtingen onder de AI Act die deze controles mede bepalen.

Wat kost het om een AI-agent te bouwen?

Dat hangt af van scope, integraties en betrouwbaarheidseisen. Er zijn twee kosten: het bouwen, en de doorlopende evaluatie en monitoring die een agent nodig heeft naarmate modellen en data veranderen. Bij Crux Digits werken we met projecten met vaste scope — een audit van EUR 2.500, een proof of concept tegen vaste prijs, en een productielancering vanaf EUR 50.000 — zodat de kosten helder zijn voordat u zich vastlegt.

Moet ik een AI-agent in eigen huis bouwen of er een kopen?

Koop wanneer een kant-en-klare tool al in uw workflow past — dat is sneller en goedkoper en iemand anders onderhoudt het. Bouw wanneer de agent eigen data raakt, uw specifieke processen, of u een echte concurrentievoorsprong geeft. Reken in beide gevallen de onderhoudsstaart mee, en overweeg een partner met vaste scope als u de dure fouten van een eerste bouw wilt vermijden.

Hoe bouw je een AI-agent? Een praktische gids