AI benchmarken tegen menselijke experts

Een indrukwekkende demo is geen vertrouwen. Om te weten of een AI-systeem betrouwbaar genoeg is voor werk met hoge inzet, benchmark je het tegen je eigen menselijke experts op je eigen echte casussen, leg je vooraf schriftelijk acceptatiecriteria vast en houd je de mens in de lus met het eindoordeel gedurende het hele traject. Vertrouwen is iets dat je in de loop van de tijd opbouwt uit bewijs, niet iets waarmee een model komt aanzetten.

Iemand demonstreert een AI die een stapel documenten leest en tot een conclusie komt: snel, welbespraakt, de voorbeelden komen binnen, hoofden knikken. Dan stelt een rustiger stem de enige vraag die er werkelijk toe doet: "Hoe weten we dat het betrouwbaar genoeg is om op te vertrouwen?"

Je verdient vertrouwen voor werk met hoge inzet door de AI te benchmarken tegen je eigen menselijke experts en de mens in de lus te houden. Als een verkeerde output een mislukte audit betekent, een verkeerd gecertificeerde leverancier, een foute juridische beslissing, een gemiste diagnose of een overtreding van de regelgeving, dan is "het ziet er accuraat uit" geen norm die je kunt verantwoorden tegenover een raad van bestuur, een accreditatie-instantie of een toezichthouder.

Dit is de vertrouwens- en evaluatielaag die boven de machinerie ligt. De mechaniek om documenten tegen een norm te controleren behandelen we in ons stuk over de module voor AI-conformiteitsbeoordeling en pre-audit documentcontrole, en de evaluatieopstelling zelf in onze gids over de productie-AI-stack. Wat hierna volgt, is hoe je beslist of dat alles betrouwbaar genoeg is, plus de governance en het ontwerp van de mens in de lus die die beslissing verdedigbaar maken.

Waarom "het ziet er accuraat uit" geen vertrouwen is

De demo is de val: leveranciers tonen zorgvuldig geselecteerde voorbeelden langs het gebaande pad, de schone pdf, de voor de hand liggende clausule, de casus met één juist antwoord. Vertrouwen gaat over de casussen die niemand vooraf heeft uitgekozen, de rommelige scan, de dubbelzinnige formulering, het document dat niet in het sjabloon past, de lange staart waar je experts hun geld waard zijn en waar een AI die schittert op de demoset je vrijwel niets zegt.

Eén cijfer voor algemene nauwkeurigheid is het meest verleidelijke getal dat je voorgeschoteld krijgt, en het minst bruikbare. Nauwkeurigheid op welke set, tegen wiens oordeel, bij welke betrouwbaarheidsdrempel? "94% nauwkeurig" is een zinsfragment, geen resultaat.

Adoptie is ook geen vertrouwen. AI-adoptie is inmiddels wijdverbreid, waarbij de meeste organisaties het in minstens één bedrijfsfunctie draaien, en toch heeft slechts een minderheid het opgeschaald tot betrouwbare, bedrijfsbrede waarde, zoals McKinsey's terugkerende State of AI-onderzoek laat zien.

Voor het mechanisme achter waarom een vloeiend, zelfverzekerd antwoord toch faliekant fout kan zijn, behandelt onze uitleg over AI-hallucinatie dat: de faalmodus die al deze meting bedoeld is om te vangen.

Wat je daadwerkelijk moet meten (verder dan één nauwkeurigheidsscore)

Eén nauwkeurigheidscijfer perst een dozijn vragen samen tot één getal. Meet deze afzonderlijk, op je eigen werk.

Overeenstemming met menselijke experts. Komt de AI tot dezelfde conclusie als je senior beoordelaars, op dezelfde input? Voor werk met hoge inzet is dit de kerngraadmeter: overeenstemming met de mensen wier oordeel je vertrouwt, niet nauwkeurigheid tegen een abstracte antwoordsleutel.
*Foutpercentage én fouttype.* Een onterechte "goedkeuring" die een reëel probleem over het hoofd ziet, is in audit-, compliance-, medische en juridische contexten meestal veel duurder dan een onterechte "afkeuring", dus meet de twee afzonderlijk en weeg ze naar gevolg.
Hallucinatie- en fabricagepercentage. Hoe vaak verzint het systeem een feit, een bronvermelding, een clausule die er nooit stond? Neem hierin niet het woord van de leverancier aan. Stanford HAI's 2025 AI Index meldt dat het aantal AI-gerelateerde incidenten in 2024 steeg naar 233, een record en een toename van 56,4% ten opzichte van 2023, terwijl de transparantie van ontwikkelaars, hoewel gestegen van 37% in oktober 2023 naar 58% in mei 2024, gedeeltelijk blijft.
Kalibratie en kwaliteit van de betrouwbaarheid. Wanneer het systeem zegt dat het zeker is, heeft het dan ook werkelijk zo vaak gelijk?
Dekking. Welk aandeel van de echte casussen kan het aanpakken, versus moet het overdragen?
Randgevallen en robuustheid. Gescand papier, gemengde talen, slechte opmaak, ongebruikelijke documenttypen: wat nooit in een demo verschijnt.
Drift in de tijd. Modellen, prompts en je documentmix veranderen allemaal, en een getal dat in maart klopte, kan tegen september stilletjes verrotten.

Vertrouwen is de combinatie van deze die standhoudt, op jouw werk, keer op keer, niet één ervan op een zorgvuldig geselecteerde steekproef.

Hoe benchmark je AI tegen je menselijke experts?

AI benchmarken tegen menselijke experts betekent dat je het systeem laat draaien tegen beslissingen die je mensen al hebben genomen, meet waar het overeenstemt en waar het afwijkt, rigoureus genoeg om de toets der kritiek te doorstaan. Zes stappen.

1. Bouw een gouden-standaardset op vanuit je menselijke experts

Neem een representatieve steekproef van echte, besliste casussen waarover ervaren beoordelaars al tot een conclusie zijn gekomen, inclusief de moeilijke en dubbelzinnige; daar wordt vertrouwen gewonnen of verloren. Dit is je grondwaarheid; als hij te klein of te schoon is, is elk cijfer verderop fictie.

2. Laat het blind draaien

De AI beoordeelt dezelfde input zonder het menselijke oordeel te zien. Laat idealiter een deel van je mensen die casussen ook blind herbeoordelen, zodat je "AI versus mens"-onenigheid kunt scheiden van "mens versus mens"-onenigheid, wat je in stap drie nodig hebt.

3. Meet de overeenstemming tussen beoordelaars, niet alleen een vinkjestelling

Je menselijke experts zijn het niet 100% van de tijd met elkaar eens, dus de eerlijke vraag is niet "heeft de AI altijd gelijk", maar "is de AI het ongeveer even vaak eens met onze beoordelaars als zij het onderling eens zijn?" In het onderzoek hebben sterke LLM-juryleden meer dan 80% overeenstemming met menselijke voorkeuren bereikt in het MT-Bench- en Chatbot Arena-werk van Zheng en collega's, beschreven als "hetzelfde niveau van overeenstemming als tussen mensen". Dezelfde paper documenteert de vertekeningen van het jurylid (positie, breedsprakigheid, zelfverheffing), wat precies de reden is waarom je meet tegen je eigen menselijke nulmeting in plaats van het kader van een leverancier te vertrouwen.

4. Valideer de evaluator, niet alleen het model

Als je een LLM gebruikt om de outputs te scoren, heb je een tweede ding toegevoegd dat fout kan zijn. Een betrouwbare geautomatiseerde evaluator is zelf een open onderzoeksvraag, zoals de survey over LLM-as-a-Judge van Gu en collega's het formuleert: deze systemen bieden schaalbare, consistente beoordeling, maar het waarborgen van hun betrouwbaarheid "blijft een aanzienlijke uitdaging". Houd een menselijke steekproefcontrole op het scoringssysteem: benchmark de benchmarker.

5. Gebruik de les van de advocatenstudie eerlijk

Een veelgeciteerde studie uit 2018, uitgevoerd door leverancier LawGeex en inmiddels enkele jaren oud, zette een AI tegenover 20 ervaren, in de VS opgeleide advocaten bij het opsporen van risico's in geheimhoudingsovereenkomsten. De AI behaalde 94% gemiddelde nauwkeurigheid tegenover de 85% van de advocaten. De beste mens evenaarde de AI met 94%, en de spreiding liep helemaal terug tot 67%. Gemiddelden verbergen variantie, dus benchmark tegen je beste beoordelaars, niet het gemiddelde.

6. Leg de benchmark over de beoordelingsniveaus heen

Serieuze programma's hebben vaak meerdere onafhankelijke toezichts- of accreditatielagen. Benchmark elke laag afzonderlijk: overeenstemming bij de eerste beoordeling zegt je niets over overeenstemming bij de definitieve goedkeuring.

Dit veranderen van een eenmalige exercitie in een herhaalbare, regressie-geteste opstelling die je opnieuw kunt draaien bij elke model- of promptwijziging, is precies wat we bedoelen met een productie-AI-stack: benchmarking is een blijvende capaciteit, geen lanceringspoort die je eenmaal passeert.

Hoe lang moet een benchmark of pilot draaien?

Lang genoeg om het systeem zich te zien gedragen over echte variatie, en dat betekent maanden, geen weken. Voor werkelijk hoge-inzetbeslissingen is naar onze ervaring een parallel-draaiende periode van zes maanden of meer redelijk voordat iemand zijn handtekening zet. Je hebt genoeg volume nodig voor statistische significantie; je moet seizoens- en casusmixvariatie overspannen, de rustige periode en de drukte; en je moet drift waarnemen, wat een pilot van twee weken structureel niet kan tonen.

Pull quote: Vertrouwen is iets dat je in de loop van de tijd opbouwt uit bewijs, niet iets waarmee een model komt aanzetten. — Crux Digits

Draai het parallel: AI en mensen beoordelen beide live werk, het oordeel van de mensen blijft gezaghebbend, en je bouwt een overeenstemmingsdossier op dat je vertrouwensbewijs wordt. Beide tegelijk draaien kost meer dan overschakelen, maar die kosten kopen verdedigbaar vertrouwen: een gedocumenteerd dossier over meerdere maanden dat je aan een raad van bestuur of een accreditatie-instantie kunt voorleggen, wat een demo nooit kan zijn.

Welke acceptatiecriteria bewijzen dat het klaar is voor productie?

Stel de drempels voordat je begint vast, schriftelijk, met de mensen die het risico dragen; criteria die je definieert nadat je de resultaten hebt gezien, zijn geen criteria maar rationalisaties verkleed als normen. Concrete, sectoronafhankelijke voorbeelden:

Overeenstemming op of boven je menselijke nulmeting. De AI moet de mens-tot-mens-overeenstemming die je hebt gemeten evenaren of overtreffen.
Een harde bovengrens op het kostbare fouttype. Bijvoorbeeld: het percentage onterechte "goedkeuringen" moet gelijk zijn aan of lager dan dat van je huidige menselijke proces. Kies de fout die het meest pijn doet en begrens hem expliciet.
Een kalibratiedoel. Outputs met hoge betrouwbaarheid moeten boven een afgesproken lat juist zijn; outputs met lage betrouwbaarheid moeten betrouwbaar naar een mens worden geleid.
Een dekkingsondergrens. Het aandeel casussen dat van begin tot eind wordt afgehandeld, moet de bouw rechtvaardigen.
Stabiliteit. Elk criterium moet standhouden over het volledige benchmarkvenster, niet alleen de beste maand erin.

En nog één, een criterium op zichzelf: het systeem moet in staat zijn te zeggen "ik weet het niet zeker, stuur dit naar een persoon", op de juiste casussen. Na livegang worden deze drempels je monitoringdoelen: de benchmark verandert in de driftbewaking.

Wat mens-in-de-lus-validatie daadwerkelijk inhoudt

Mens in de lus is een ontworpen arbeidsverdeling: de mens behoudt het eindoordeel, en de AI doet het zware werk dat dat sneller en beter onderbouwd maakt. Drie vereisten maken het echt.

Bronvermelding bij elk antwoord. De AI moet tonen welk document, welke clausule, welke pagina hij heeft gebruikt, zodat een mens in seconden kan verifiëren; een antwoord zonder bron is niet te auditen. De techniek is retrieval-augmented generation; onze uitleg over RAG behandelt hoe het verankeren van een antwoord in opgehaalde brontekst werkt.
Een betrouwbaarheidsscore die ergens op slaat. Betrouwbaarheid is pas nuttig als ze is gevalideerd tegen het werkelijke trefferpercentage; samen met bronnen stelt ze een beoordelaar in staat het zelfverzekerde-en-onderbouwde van de rest te scheiden.
Een escalatiepad. Casussen met lage betrouwbaarheid of hoge inzet gaan automatisch naar een mens, en de correctie van de mens vloeit terug in de benchmark.

Dit is versterking, geen vervanging, en het sterkste bewijs is medisch. De MASAI-studie, het eerste gerandomiseerde, gecontroleerde onderzoek naar AI bij borstkankerscreening met meer dan 100.000 vrouwen, gebruikte AI als ondersteunend hulpmiddel voor radiologen. Gepubliceerd in The Lancet, lieten de volledige resultaten een vermindering van 44% in de werklast van het beeldlezen door radiologen zien én een toename van 29% in kankerdetectie, zonder stijging van het aantal vals-positieven. Onafhankelijk, peer-reviewed commentaar op de MASAI-studie bevestigt het ontwerp, 105.934 gerandomiseerde personen, en de non-inferioriteit van AI-ondersteunde screening ten opzichte van standaard menselijke dubbele lezing, met intervalkankerpercentages van 1,55 versus 1,76 per 1.000. Deloitte's onderzoek uit 2025 naar digitalisering en analytics bij interne audit meldt dat 90% van de interne-auditfuncties nu digitale en analytics-plannen heeft die geïntegreerd zijn met hun strategische doelen, waarbij generatieve-AI-tools worden gebruikt om auditors te versterken in plaats van te vervangen. ACCA's AI Monitor stelt expliciet dat "menselijke tussenkomst behouden moet blijven op kritieke momenten" en dat de professionals die een sterk beoordelingsvermogen ontwikkelen, degenen zijn die zullen floreren.

Governance: hoe benchmarking aansluit op artikel 14 van de EU AI-verordening en de AVG

Als je toepassing hoog-risico is, is governance niet optioneel, en benchmarking is een van de betere manieren om het aan te tonen. De EU AI-verordening vereist dat hoog-risico AI-systemen natuurlijke personen er effectief toezicht op laten houden tijdens het gebruik. Artikel 14 stelt dat zij "zodanig moeten worden ontworpen en ontwikkeld... dat er tijdens de periode dat zij in gebruik zijn effectief toezicht op kan worden gehouden door natuurlijke personen", en geeft de toezichthouder het recht om "de output te negeren, terzijde te schuiven of terug te draaien" en om "het systeem te onderbreken via een stopknop of een soortgelijke procedure". De gezaghebbende tekst is de versie in het Publicatieblad van Verordening (EU) 2024/1689. Een benchmark die bewijst dat mensen het eindoordeel behouden en het ook kunnen uitoefenen, is documenteerbaar bewijs richting artikel 14.

Of je systeem überhaupt binnen het toepassingsgebied valt, is een eigen vraag; onze implementatiegids voor hoog-risico en het stuk over of jouw AI-systeem hoog-risico is behandelen zowel dat als de diepere toezichtsverplichtingen. Voor lezers buiten de EU en multinationals is de erkende vrijwillige ruggengraat het NIST AI Risk Management Framework, georganiseerd rond Govern, Map, Measure en Manage. Benchmark en bestuur voordat je vertrouwt.

Dan is er de data. Op het moment dat je AI documenten met persoonsgegevens leest, is de AVG van toepassing; Verordening (EU) 2016/679 is de bindende tekst. Persoonsgegevens mogen de EER alleen verlaten onder de voorwaarden in Hoofdstuk V, hoofdzakelijk een adequaatheidsbesluit of passende waarborgen zoals modelcontractbepalingen, zoals de EDPB uiteenzet in haar gids over internationale gegevensdoorgiften. Voor gevoelige documenten is een EU-gehoste, AVG-conforme omgeving wat de benchmark rechtmatig houdt. We behandelen residentie in ons stuk over het kiezen van een in de EU gevestigde AI-partner.

Onder dit alles ligt een principe dat ouder is dan AI. De IAASB beschouwt professionele scepsis, een kritische geest en een kritische beoordeling van het bewijs, als "een noodzakelijk element van alle audit- en assurance-opdrachten". Het oordeel kan niet aan een gereedschap worden uitbesteed, wat ons leidt naar de faalmodus hieronder.

Automatiseringsbias: de faalmodus die het toezicht stilletjes om zeep helpt

Automatiseringsbias is de menselijke neiging om te zwichten voor een zelfverzekerde machine en je eigen oordeel niet meer toe te passen, precies het tegenovergestelde van het toezicht dat artikel 14 eist. Een "mens in de lus" die elke AI-output blind afstempelt, is de meest voorkomende manier waarop goede governance in het veld faalt.

Benchmarking is het tegengif. Wanneer beoordelaars het gemeten foutprofiel van de AI daadwerkelijk hebben gezien, waar hij betrouwbaar is en waar hij wankel is, kalibreren ze hun eigen vertrouwen correct in plaats van overal te zwichten.

Praktische tegenmaatregelen: toon betrouwbaarheid en bronnen zodat verificatie goedkoop is; breng onenigheden naar voren in plaats van ze te verbergen; rouleer blinde, uitsluitend menselijke controles zodat de vaardigheid niet wegkwijnt; en houd het percentage afwijkingen bij als gezondheidsgraadmeter. Een afwijkingspercentage van nul is een rode vlag, geen triomf; het betekent dat niemand echt kijkt.

Vragen om aan een AI-leverancier te stellen voordat je de output vertrouwt

Een scherpe checklist voor het inkoopgesprek; de bereidheid van de leverancier om gebenchmarkt te worden is op zichzelf het duidelijkste vertrouwenssignaal dat je krijgt.

"Kunnen we het benchmarken tegen onze eigen experts, op onze eigen documenten, voordat we ons committeren?" Als het antwoord nee is, loop dan weg.
"Zal elk antwoord zijn bron en een gekalibreerde betrouwbaarheidsscore tonen?"
"Wat is jullie foutprofiel per type, en hoe is het gemeten, op welke data?" Pas op voor één nauwkeurigheidscijfer; bedenk hoe schaars de transparantie van leveranciers nog is, volgens Stanford HAI.
"Waar wordt onze data verwerkt en opgeslagen: is het in de EU en AVG-conform, en kunnen jullie dat aantonen?"
"Hoe escaleert het systeem onzekerheid naar een mens?"
"Hoe detecteren en behandelen jullie drift na livegang?"
"Is dit een herbruikbaar platform dat we kunnen uitbreiden, of een gereedschap voor één doel dat we ontgroeien?"

Bouw een herbruikbaar platform, geen stapel losse gereedschappen

Losse gereedschappen dragen elk hun eigen validatie-, governance- en benchmarklast; je betaalt de vertrouwensbelasting telkens opnieuw. Eén bestuurd platform betaalt die eenmaal: één benchmarkdiscipline, één bronvermeldings- en betrouwbaarheidslaag, één AVG-conforme dataomgeving, uitgebreid naar elke nieuwe toepassing: goedkoper om te vertrouwen en goedkoper om te groeien.

Een serieus platform moet ook de rommelige werkelijkheid aankunnen, want echt audit- en compliancebewijs bestaat nooit uit schone pdf's. Gescand papier dat OCR nodig heeft, gemengde en niet-Latijnse talen, inconsistente opmaak: een gereedschap dat alleen nette documenten leest, raakt snel een dekkingsplafond, wat rechtstreeks terugkoppelt naar de dekkings- en randgevalgraadmeters van eerder.

Twee natuurlijke modules zitten op zo'n platform: de kennis- en Q&A-laag beschreven in ons stuk over AI-kennismanagement voor normalisatie-instellingen, en de meertalige laag behandeld in AI-vertaling van technische normen en auditbevindingen.

Een realistisch pad: audit, proof of concept, productie

Ontmijn vertrouwen stapsgewijs, in drie stappen.

AI-audit & strategie (EUR 2.500). Breng je documenten, beslissingen, datagevoeligheid en risico's in kaart, beslis of je toepassing überhaupt hoog-risico is onder de AI-verordening, en definieer de gouden-standaardset en acceptatiecriteria vooraf, voordat iemand code schrijft.
Proof of concept (EUR 20.000). Een werkende, geëvalueerde doorsnede op echte casussen met echte graadmeters, in weken gebouwd, genoeg om je te vertellen of een volledige benchmark over meerdere maanden gerechtvaardigd is, maar niet de benchmark zelf. Onze gids over het afbakenen van een AI proof of concept behandelt hoe je het eerlijk houdt.
Productielancering (vanaf EUR 50.000). Het gebenchmarkte, gemonitorde, bestuurde platform, met mens in de lus, bronvermelding, betrouwbaarheidsscores en driftbewaking vanaf het begin ingebouwd.

Een benchmarkgedreven bouw over meerdere maanden voor werk met hoge inzet is een betekenisvolle investering, geen SaaS-abonnement; het volledige kostenplaatje is het lezen waard voordat je begroot. Maar het is de prijs van bewijs dat je kunt verdedigen, op het model van opdrachten met vaste scope, EU- en AVG-first, mens in de lus, geen hype.

Vertrouwen wordt verdiend met bewijs, niet met demo's

Drie kernpunten om mee te nemen. Meet de juiste dingen, niet één nauwkeurigheidscijfer. Benchmark tegen je eigen experts over een echte periode, maanden, met de moeilijke casussen erin. Houd de mens met het eindoordeel, gewapend met bronnen, betrouwbaarheid en een werkend escalatiepad. Dat is wat "het ziet er accuraat uit" verandert in "we kunnen verantwoorden dat we hierop vertrouwen": de blijvende discipline die een indrukwekkende demo verandert in een systeem dat je kunt voorleggen aan een raad van bestuur, een accreditatie-instantie of een toezichthouder.

Voer je audits, certificeringen of welke beoordeling met hoge inzet dan ook uit en wil je weten of AI betrouwbaar genoeg is voor jouw werk, dan is de eerlijke eerste stap een afgebakende audit, geen sprong in het diepe. Wij zijn een tweetalig EN/NL-adviesbureau in de regio Utrecht, geleid door Tom Joseph. Begin met ons overzicht over AI-consulting, bekijk hoe de opdrachten met vaste scope en transparante prijzen werken, en wanneer je er klaar voor bent, plan een gratis consult om je eerste toepassing in kaart te brengen.

Veelgestelde vragen

Hoe weet ik of een AI-systeem betrouwbaar genoeg is voordat ik erop vertrouw?

Benchmark het tegen je eigen menselijke experts op je eigen echte casussen, niet op de demoset van de leverancier. Leg vooraf schriftelijk acceptatiecriteria vast, meet overeenstemming, fouttype, kalibratie en dekking, en houd de mens in de lus met het eindoordeel. Vertrouwen wordt opgebouwd uit gedocumenteerd bewijs in de loop van de tijd, niet uit één indrukwekkende demonstratie.

Hoe lang moet een AI-benchmark- of pilotperiode draaien?

Maanden, geen weken. Voor werkelijk hoge-inzetbeslissingen is naar onze ervaring een parallel-draaiende periode van zes maanden of meer redelijk voordat iemand zijn handtekening zet. Je hebt genoeg volume nodig om statistisch betekenisvol te zijn, genoeg tijd om seizoens- en casusmixvariatie te vangen, en genoeg duur om drift waar te nemen, wat een pilot van twee weken structureel niet kan tonen.

Vervangt AI auditors en andere experts, of versterkt het ze alleen?

In gereguleerd werk met hoge inzet wijst het bewijs op versterking. De MASAI-radiologiestudie verminderde de leeswerklast en verhoogde tegelijk de detectie door radiologen aan het roer te houden, en organisaties als Deloitte en ACCA beschrijven AI die auditors versterkt met menselijke tussenkomst op kritieke punten. Artikel 14 van de EU AI-verordening vereist bovendien dat een mens het systeem kan terzijde schuiven of stoppen, dus het eindoordeel blijft menselijk.

Waarom moeten AI-antwoorden hun bronnen en een betrouwbaarheidsscore tonen?

Zodat een mens goedkoop kan verifiëren en effectief kan triëren. Bronvermelding laat een beoordelaar in seconden controleren uit welk document, welke clausule of welke pagina een antwoord kwam in plaats van alles te herlezen, en een antwoord zonder bron is feitelijk niet te auditen. Een betrouwbaarheidsscore is pas nuttig als ze is gekalibreerd tegen het werkelijke trefferpercentage, zodat zelfverzekerde outputs ook werkelijk zo vaak juist zijn.

Wat is automatiseringsbias en hoe voorkom je dat mensen AI te veel vertrouwen?

Automatiseringsbias is de neiging om te zwichten voor een zelfverzekerde machine en je eigen oordeel niet meer toe te passen, waardoor menselijk toezicht verwordt tot blind afstempelen. De tegenmaatregelen zijn benchmarken zodat beoordelaars het echte foutprofiel kennen, bronnen en betrouwbaarheid tonen zodat verificatie goedkoop is, blinde, uitsluitend menselijke controles rouleren, en het percentage afwijkingen bijhouden. Een afwijkingspercentage van nul is een waarschuwingssignaal, geen succes.

AI benchmarken tegen menselijke experts: hoe weet je of je het kunt vertrouwen?