AI trainen op bedrijfsdata onder de AVG: mag dat?

Kort antwoord: ja, in de meeste gevallen mag je in Nederland rechtmatig AI trainen op je eigen bedrijfs- en klantdata, maar alleen als je een geldige rechtsgrond hebt, je binnen het doel blijft waarvoor je de data oorspronkelijk verzamelde, en je eventuele persoonsgegevens beschermt. De AVG verbiedt het trainen van AI niet. De wet gaat over persoonsgegevens, ongeacht wat je ermee doet, en AI-training is gewoon weer een verwerkingsactiviteit die dezelfde regels moet volgen waar je je al aan houdt. De crux is dat de meeste bedrijfsdatasets op zijn minst wat persoonsgegevens bevatten, en "we hebben deze data nu eenmaal al" is op zichzelf geen juridische reden om die in een model te stoppen.

Laat me in gewone taal uitleggen wat er echt toe doet, voor een ondernemer of manager die iets nuttigs wil bouwen zonder in de valkuilen te trappen.

Scheid eerst persoonsgegevens van de rest

Niet alle bedrijfsdata is gereguleerd. De AVG geldt alleen voor persoonsgegevens: informatie die te herleiden is tot een identificeerbaar, levend persoon. Een spreadsheet met sensormetingen van machines, anonieme transactietotalen, productspecificaties of interne proceslogs zonder namen valt over het algemeen volledig buiten de AVG. Daarop kun je vrij gerust trainen, met inachtneming van vertrouwelijkheid en eventuele contracten die je hebt getekend.

Zodra je data namen, e-mailadressen, klant-ID's, supporttickets, gesprekstranscripties, cv's of iets anders bevat dat tot een persoon te herleiden is, val je wél onder de wet. En dit is het deel dat mensen onderschatten: data waarvan je denkt dat die anoniem is, is dat vaak niet. Een "geanonimiseerd" klantrecord is regelmatig te herleiden door het te combineren met andere velden. Echte anonimisering onder de AVG is een hoge lat. Gepseudonimiseerde data, waarbij je namen vervangt door codes maar de sleutel ergens bewaart, blijft gewoon een persoonsgegeven.

Stap één is dus eerlijk datamapping. Wat zit er in je dataset, op wie heeft het betrekking, en hoe makkelijk zou iemand eruit te lichten zijn? Precies dit weinig glamoureuze voorwerk maakt of breekt een project, en het overlapt sterk met je data technisch op orde krijgen. We schreven al eerder over de vraag of je data AI-klaar is en wat data engineering voor AI precies inhoudt.

Je hebt een rechtsgrond nodig, en "het is onze data" telt niet

Onder de AVG heeft elke verwerking van persoonsgegevens een van de zes rechtsgronden nodig. Voor AI-training op bestaande bedrijfsdata komen er twee het vaakst langs:

Gerechtvaardigd belang (artikel 6(1)(f)). Je mag data verwerken omdat je een echt bedrijfsbelang hebt, mits dat belang niet zwaarder wordt overtroffen door de rechten en redelijke verwachtingen van de betrokkenen. Dit is dé werkpaardgrond voor interne analyse en veel AI-projecten. Het vereist dat je daadwerkelijk een belangenafweging maakt en vastlegt, vaak een LIA genoemd.
Toestemming (artikel 6(1)(a)). Soms de schoonste route, vooral voor alles wat gevoelig of onverwacht is. Maar toestemming moet vrij gegeven, specifiek en intrekbaar zijn, wat hem broos maakt voor grote historische datasets waar je nooit om hebt gevraagd.

Overeenkomst, wettelijke verplichting, vitaal belang en algemeen belang zijn de andere vier, en die zijn situationeel. De belangrijkste denkverschuiving: een database bezitten geeft je niet het recht om die voor elk doel te gebruiken. De rechtsgrond hangt aan een doel, niet aan het bestand op je server.

De valkuil van doelbinding

Hier loopt het bij de meeste "maar het is toch onze eigen data"-projecten mis. Het beginsel van doelbinding in de AVG zegt dat je persoonsgegevens alleen mag gebruiken voor het doel waarvoor je ze verzamelde, of voor een daarmee verenigbaar doel.

Je verzamelde e-mailadressen van klanten om bestellingen te leveren en support te bieden. Is het trainen van een model dat klantverloop voorspelt een verenigbaar nieuw doel? Mogelijk. Is het verkopen van een model dat op die records is getraind, of ze gebruiken om een product te bouwen dat je aan anderen verkoopt? Veel moeilijker te rechtvaardigen, en waarschijnlijk een nieuw doel dat een eigen grondslag of verse toestemming nodig heeft.

De eerlijke toets is of je klanten redelijkerwijs verrast zouden zijn. Als een klant je AI-gebruik leest en denkt "dat is ongeveer wat ik van een bedrijf als dit met mijn gegevens zou verwachten", zit je meestal veiliger. Als ze verbouwereerd zouden zijn, behandel het dan als een nieuw doel. Diezelfde logica geldt of je nu klassieke machine learning voor bedrijven toepast of een groot taalmodel fine-tunet.

Bijzondere persoonsgegevens leggen de lat scherp hoger

Sommige data wordt onder artikel 9 als extra gevoelig behandeld: gezondheid, etniciteit, religie, politieke opvattingen, vakbondslidmaatschap, seksuele geaardheid, biometrische en genetische gegevens. Het verwerken hiervan is standaard verboden, met een smalle set uitzonderingen (meestal uitdrukkelijke toestemming of een specifieke wettelijke bepaling).

Als je een kliniek, een HR-platform of iets runt dat gezondheid of biometrie raakt, kun je niet zomaar op die data trainen omdat je die nu eenmaal hebt. Dit is de categorie waar Nederlandse toezichthouders, en de Autoriteit Persoonsgegevens in het bijzonder, nauwlettend op letten. Win specialistisch advies in voordat je hier ook maar in de buurt komt.

Let op waar de data tijdens het trainen heen gaat

Hóe je traint doet er net zoveel toe als waaróp je traint.

Als je fine-tunet of data naar een externe modelleverancier stuurt, verlaat die data je beheer. Dan moet je weten: waar staan hun servers, wie kan de data zien, wordt die gebruikt om hun basismodellen te trainen, en is er een deugdelijke verwerkersovereenkomst? Doorgiften buiten de EU/EER kennen hun eigen AVG-voorwaarden.

Pull quote: "We hebben deze data nu eenmaal al" is op zichzelf geen juridische reden om die in een model te stoppen. — Crux Digits

Dit is een reden waarom veel EU-bedrijven de voorkeur geven aan architecturen die data in eigen huis houden. Retrieval-augmented generation laat je een model bijvoorbeeld vaak gronden in je documenten zonder die data permanent in de modelgewichten te bakken, wat vanuit privacyoogpunt schoner kan zijn. Zijn die termen nieuw? Onze uitleg over wat RAG is en RAG versus fine-tuning zet de afwegingen op een rij, en de post over de production AI stack behandelt hoe de stukken samenkomen in een systeem dat je echt kunt draaien en auditen.

Zes rechten die je moet kunnen honoreren

Wat je ook bouwt, de mensen in je data houden hun AVG-rechten, en je AI-systeem moet die kunnen respecteren:

Inzage — ze mogen vragen welke data je hebt en hoe die wordt gebruikt.
Verwijdering — het "recht om vergeten te worden". Dit is voor AI echt lastig, want iemand uit je database wissen haalt zijn invloed niet uit een al getraind model. Zet je aanpak voor hertraining of gegevensverwerking zo op dat verwijderverzoeken ook echt uitvoerbaar zijn.
Rectificatie — onjuiste data corrigeren.
Bezwaar — het recht om bezwaar te maken tegen verwerking op grond van gerechtvaardigd belang.
Beperking — verwerking pauzeren bij bepaalde geschillen.
Waarborgen bij geautomatiseerde besluitvorming (artikel 22) — neemt de AI besluiten met juridische of vergelijkbaar ingrijpende gevolgen voor mensen (leningen, werving, verzekeringen), dan hebben zij recht op betekenisvolle menselijke tussenkomst en een uitleg.

Dat laatste punt is een reden waarom we standaard bouwen met een mens in de lus. Het is niet alleen goede praktijk, het is vaak een wettelijke eis, en het past goed bij weten waar de grenzen van je model liggen, inclusief waarom modellen hallucineren en hoe LLM's antwoorden eigenlijk genereren.

Een praktische volgorde voordat je iets traint

Wil je een checklist die je niet bedelft onder juridische theorie? Dit is grofweg de volgorde die we met klanten doorlopen:

Map de data. Welke persoonsgegevens zitten erin, op wie hebben ze betrekking, en hoe identificeerbaar.
Minimaliseer. Strip velden die het model niet nodig heeft. Minder persoonsgegevens, minder risico, vaak een beter model.
Kies en documenteer je rechtsgrond specifiek voor het trainingsdoel. Maak de belangenafweging als je op gerechtvaardigd belang leunt.
Check de verenigbaarheid van het doel. Zouden je klanten dit gebruik verwachten? Zo niet, regel dan een nieuwe grondslag.
Doe een DPIA (gegevensbeschermingseffectbeoordeling) voor verwerking met hoger risico, grootschalige data of bijzondere categorieën. De AVG verplicht dat in die gevallen feitelijk.
Vergrendel de pipeline. Versleuteling, toegangscontroles, verwerkersovereenkomsten met leveranciers, en duidelijkheid over waar de data fysiek staat.
Bouw de rechten in. Zorg dat inzage-, correctie- en verwijderverzoeken vanaf dag één operationeel mogelijk zijn.

Niets hiervan is exotisch. Het is dezelfde discipline die een AI-project laat werken in plaats van alleen mooi demoën, en daarom gaan goed databeheer en goed engineering vaak hand in hand. Het is ook waarom we meestal beginnen met een klein, afgebakend stuk werk in plaats van een gigantische sprong, dezelfde logica achter een proof of concept goed afbakenen.

De EU AI Act ligt hier bovenop

Nog één laag om te benoemen. De AVG gaat over de data. De EU AI Act, die in 2025 en 2026 gefaseerd ingaat, gaat over het systeem, met strengere verplichtingen voor "hoogrisico"-toepassingen zoals werving, kredietscoring en bepaalde biometrische toepassingen. De twee regimes overlappen, maar zijn niet hetzelfde. Een gebruik dat onder de AVG prima is, kan toch AI Act-verplichtingen meebrengen, en andersom. Voor de meeste gewone interne-efficiëntietools is de AI Act licht van toon, maar bouw je iets dat het leven van mensen wezenlijk raakt, dan gelden beide regimes.

Dus, kun je het doen?

Voor de grote meerderheid van Nederlandse bedrijven die AI op hun eigen operationele en klantdata willen trainen of gronden, is het antwoord een zelfverzekerd ja, rechtmatig — zodra je de persoonsgegevens hebt geïdentificeerd, een verdedigbare rechtsgrond hebt gekozen, binnen een verenigbaar doel bent gebleven, de data in transit en in rust hebt beschermd, en de onderliggende rechten uitvoerbaar hebt gemaakt. De illegale versie is de luie: pak wat er op de server staat, stuur het naar een willekeurige modelleverancier en hoop dat niemand ernaar vraagt. De rechtmatige versie is grotendeels gewoon goed engineering plus wat papierwerk vooraf.

Wil je de keuzes rond datamapping, rechtsgrond en architectuur liever niet alleen navigeren? Dat is precies het soort werk dat wij doen. Ons werk in data engineering en AI-consulting is AVG-first en standaard met een mens in de lus, en een AI Audit & Strategie met vaste scope is meestal de juiste eerste stap om te ontdekken waar je precies staat. Neem gerust contact op voor een eerlijk antwoord over jouw specifieke situatie.

Dit artikel is algemene informatie, geen juridisch advies. Voor beslissingen rond gevoelige data of hoogrisicotoepassingen raadpleeg je een gekwalificeerde privacyjurist.

Veelgestelde vragen

Mag ik AI trainen op klantdata die ik al heb zonder opnieuw te vragen?

Soms, maar niet automatisch. Dat je de data al hebt, geeft je geen rechtsgrond om die voor een nieuw doel zoals AI-training te gebruiken. Je hebt een geldige rechtsgrond nodig (vaak gerechtvaardigd belang met een gedocumenteerde belangenafweging, of verse toestemming) en het nieuwe gebruik moet verenigbaar zijn met de reden waarvoor je de data oorspronkelijk verzamelde. Als klanten verrast zouden zijn door het gebruik, behandel het dan als een nieuw doel.

Is geanonimiseerde data uitgezonderd van de AVG?

Echt anonieme data, waarbij geen enkel individu te identificeren is, zelfs niet door datasets te combineren, valt buiten de AVG en kan veel vrijer worden gebruikt. Maar de lat voor echte anonimisering is hoog, en veel 'geanonimiseerde' datasets zijn opnieuw te herleiden. Gepseudonimiseerde data (namen vervangen door codes, met een sleutel die ergens bewaard wordt) blijft een persoonsgegeven en valt volledig onder de wet.

Wat is de veiligste rechtsgrond voor AI-training op bedrijfsdata?

Er is geen enkele veiligste grond; het hangt af van de data en het doel. Gerechtvaardigd belang is het meestgebruikte werkpaard voor interne AI en analyse, maar het vereist een gedocumenteerde belangenafweging tussen jouw belang en de rechten van mensen. Toestemming is schoner voor gevoelig of onverwacht gebruik, maar broos voor grote historische datasets. Bijzondere persoonsgegevens (gezondheid, biometrie en dergelijke) vereisen meestal uitdrukkelijke toestemming of een specifieke wettelijke uitzondering.

Hoe werkt het recht om vergeten te worden als data al in een getraind model zit?

Dit is een van de lastigere kanten van AI onder de AVG. Iemand uit je database wissen haalt zijn invloed niet automatisch uit een model dat er al op getraind is. Je hebt een plan nodig, zoals geplande hertraining, controles op gegevensverwerking, of architecturen zoals retrieval-augmented generation die persoonsgegevens niet permanent in de modelgewichten bakken, zodat verwijderverzoeken ook echt gehonoreerd kunnen worden.

Heb ik een DPIA nodig voordat ik AI op klantdata train?

Vaak wel. Een gegevensbeschermingseffectbeoordeling (DPIA) is onder de AVG feitelijk verplicht bij verwerking met hoger risico, grootschalige data, systematische profilering of bijzondere persoonsgegevens. Zelfs als het niet strikt verplicht is, is er een doen verstandig: het dwingt je je rechtsgrond te documenteren, de data te minimaliseren en risico's te identificeren vóór je bouwt in plaats van na een klacht.

Mag je AI trainen op je bedrijfsdata? (AVG, helder uitgelegd)