Vier AI-papers die de toekomst gaan bepalen

Het AI-onderzoek dat de toekomst vormgeeft: vier papers om in de gaten te houden

Een leesgroep-terugblik over schaal, zelfverbetering, latency en verificatie — vier verschillende antwoorden op dezelfde vraag.

Wij verdiepen ons in baanbrekend AI-onderzoek zodat toegepaste teams de preprints niet hoeven te lezen om te weten welke kant de grond zich verschuift. De papers hieronder zijn recent, en stuk voor stuk een signaal van wat productiesystemen straks geacht worden te doen. Geen ervan is een product dat je vandaag kunt kopen. Maar ze veranderen allemaal de aannames waartegen je zou moeten ontwerpen.

Haal de marketing eraf en het meeste baanbrekende ML-werk jaagt op één van twee dingen: modellen capabeler maken, of ze betrouwbaarder maken. Deze leesgroep kwam uit op vier papers die op het eerste gezicht niets met elkaar te maken hebben — een eiwit-taalmodel, een self-play-loop voor het bewijzen van stellingen, een voice-agent en een tweetal Lean 4-verificatieframeworks. Maar ze liggen netjes op één lijn langs die as van capabel/betrouwbaar.

Twee ervan zijn weddenschappen op pure capaciteit via schaal en zelf-gegenereerde data: de eiwitbiologie wordt opgeslokt door de bitter lesson, en LLM's leren hun eigen curriculum te schrijven. De andere twee zijn weddenschappen op betrouwbaarheid onder realistische randvoorwaarden: het verbergen van retrieval-latency zodat een voice-agent zowel gegrond als snel kan blijven, en het binnenhalen van neurale netwerken en gegenereerde code in een proof assistant waar correctheid mechanisch wordt gecontroleerd. Wat de set interessant maakt, is hoe de thema's elkaar besmetten — de self-play-paper gaat over het bewijzen van stellingen in Lean, hetzelfde substraat als het verificatiewerk; de kop van het eiwitmodel is een schaal-argument dat qua geest identiek is aan LLM-pretraining. Capaciteit en vertrouwen zijn geen aparte sporen. Ze grijpen steeds naar elkaars gereedschap.

AI voor biologie: de bitter lesson komt eraan voor eiwitten

Tien jaar lang leunde de state of the art in eiwitstructuurvoorspelling zwaar op één inductieve bias: multiple sequence alignments (MSA's). AlphaFold2 en zijn opvolgers zoeken evolutionair verwante sequenties, lijnen ze uit en lezen co-evolutiesignalen af om af te leiden welke residuen in 3D dicht bij elkaar liggen. Het werkt buitengewoon goed — maar het bakt een handgebouwde pipeline in en faalt wanneer er geen goede homologen bestaan (weesproteïnen, ontworpen antilichamen).

De tegenweddenschap is het "bitter lesson"-argument: stop met het engineeren van de inductieve bias en laat geschaald, ongesuperviseerd leren plus inference-time compute die zelf ontdekken. Die framing wordt uiteengezet door Alex Rives in de Latent Space-aflevering The Bitter Lesson is Coming for Proteins, en gaat terug op het oorspronkelijke ESM-2/ESMFold-werk bij Meta AI in 2023, waar atomaire-structuurinformatie emergeerde uit een masked language model van 15 miljard parameters dat alleen op sequentie was getraind — en ESMFold structuur voorspelde vanuit een enkele sequentie, MSA-vrij, met een nauwkeurigheid die AlphaFold2 benaderde maar veel sneller. (Belangrijk om precies te zijn: MSA-vrij folden is hier geboren in 2023, niet uitgevonden door het nieuwere model hieronder.)

De lijn liep door bij EvolutionaryScale met ESM3, een multimodaal generatief model dat gezamenlijk redeneert over sequentie, structuur en functie — beroemd vanwege het genereren van esmGFP, een fluorescerend eiwit dat slechts voor 58% identiek is aan zijn dichtstbijzijnde natuurlijke verwant, ruwweg 500 miljoen jaar gesimuleerde evolutie. De op representatie gerichte tegenhanger, ESM Cambrian (ESMC), verscheen in december 2024 als een BERT-achtig eiwitmodel getraind op ~2,8 miljard sequenties, waarbij het lab expliciet rapporteerde dat de opbrengsten niet afnemen tot 6 miljard parameters.

Het nieuwe werk is de bioRxiv-preprint van juni 2026 Language Modeling Materializes a World Model of Protein Biology van Biohub — hetzelfde EvolutionaryScale-team, nu met een nieuwe naam (Rives is Head of Science; dit is de ESM-opvolgerorganisatie, niet de Chan Zuckerberg Biohub). Het bundelt drie artefacten: ESMC als taalmodel, de nieuwe structuur-en-ontwerpmachine ESMFold2, en ESM Atlas, een kaart van 6,8 miljard sequenties en 1,1 miljard voorspelde structuren. Twee dingen zijn werkelijk nieuw. Ten eerste voorspelt ESMFold2 — een apart model gebouwd op ESMC-6B-representaties, geen omgedoopte ESMFold — all-atom-structuren van eiwitten en complexen en verslaat het naar verluidt AlphaFold 3 in het voorspellen van de bindingspose tussen antilichaam en antigeen, puur op basis van geleerde representaties, waarbij MSA's worden gedegradeerd tot een optionele nauwkeurigheidsboost voor lastige doelen. Ten tweede wordt de "world model"-claim concreet gemaakt: de interne representaties van ESMC worden met sparse autoencoders ontleed in ruwweg 16.000 interpreteerbare features die de Atlas ordenen. Dat is de bitter lesson verzilverd — schaal plus interpreteerbaarheid die de alignment-pipeline vervangt. Diezelfde les hervormt elk domein waar een geleerde representatie in de plaats kan komen van een handgebouwde featureset, en dat is mede waarom we steeds terugkomen op de keuze tussen een model fine-tunen en het gronden met retrieval wanneer we klantopdrachten afbakenen.

Self-play voor LLM's: een Guide tegen reward hacking

RL-post-training heeft een honger-probleem: het heeft een stroom van problemen met controleerbare antwoorden nodig, en die op schaal samenstellen is duur. Self-play belooft hieraan te ontsnappen — laat één model problemen genereren (een Conjecturer) voor een ander om op te lossen (een Solver), en je krijgt een eindeloos, zelf-afstemmend curriculum. De adder onder het gras, goed gedocumenteerd in eerdere self-play-pogingen, is instorting: onder zware compute leert de Conjecturer zijn beloning te hacken en kunstmatig ingewikkelde problemen uit te spugen die goed scoren maar de Solver niets leren.

Het mentale model van de leesgroep was hier een conjecturer + prover-loop met twee rollen, wat precies de voorloper STP: Self-play LLM Theorem Provers with Iterative Conjecturing and Proving van de groep van Tengyu Ma is. De besproken paper, Scaling Self-Play with Self-Guidance (SGS, Stanford — de groepen van Hashimoto en Tengyu Ma), is de opgeschaalde opvolger en corrigeert het tweerollen-beeld op een belangrijke manier.

SGS introduceert een derde rol: een Guide. Eén enkel model draagt alle drie de petten — Solver, Conjecturer en Guide — en de Guide is de eigenlijke bijdrage. Hij scoort synthetische problemen op relevantie ten opzichte van een verzameling onopgeloste doelproblemen en op hoe schoon en natuurlijk ze zijn, en levert zo het supervisiesignaal dat de Conjecturer ervan weerhoudt in reward-gehackte rommel in te storten. Dit is ook geen "synthetische wiskunde en coding" in abstracte zin: het systeem richt zich op formeel stellingen bewijzen in Lean 4, met alle drie de rollen geïnitialiseerd vanuit DeepSeek-Prover-V2-7B. Het relevantiesignaal van de Guide werkt juist omdat "klopte het bewijs?" een harde ground truth is die Lean kan leveren. Als de meerrollen-framing onbekend is, behandelt onze inleiding over wat AI-agents zijn hetzelfde idee van een model dat zich opsplitst in samenwerkende rollen.

Waarom het ertoe doet: de kop is dat het 7B-model na ruwweg 200 self-play-rondes meer problemen oplost dan een 671B-baseline. Maar de echte stelling van de paper is een correctie op naïef optimisme. Ongeleide self-play schaalt niet — het loopt vast en stort in. De "oneindige zelfverbeteringslus" is een fantasie; wat de Guide je oplevert, is voortgezette schaling, niet letterlijk onbegrensde verbetering. Zelf-gegenereerde curricula zijn krachtig, maar pas zodra je het metaprobleem hebt opgelost van het eerlijk houden van het curriculum.

Dezelfde lijn van RL-op-echte-taken opschalen duikt op in de industrie. Het Composer 2 Technical Report van Anysphere (Cursor Research) beschrijft het bouwen van een codingmodel vanuit een open basis (Moonshots Kimi K2.5) via continued pretraining en vervolgens grootschalige RL die binnen realistische Cursor-sessies draait — met dezelfde tools en harness als het uitgerolde product. De infrastructuur is het verhaal: een volledig asynchrone, multi-regionale RL-pipeline ("Anyrun") die honderdduizenden sandboxed coding-omgevingen opspint, met custom low-precision MoE-kernels op Blackwell-GPU's. RL verbeterde zowel de gemiddelde als de best-of-K-prestatie (bewijs dat het model werkelijk nieuwe oplossingspaden leert), met een gerapporteerde CursorBench van 61,3 (~37% boven Composer 1.5) en SWE-bench Multilingual van 73,7. SGS en Composer 2 zijn dezelfde weddenschap op verschillende schalen: het knelpunt bij RL is niet langer het algoritme, maar de aanvoer en integriteit van verifieerbare taken — en dat is precies waarom een serieuze productie-AI-stack evaluatie-harnessen nu behandelt als eersteklas infrastructuur in plaats van als bijzaak.

Realtime voice-agents: ophalen terwijl de gebruiker nog praat

Een gegronde voice-assistent heeft een wreed latency-budget. Retrieval-augmented generation maakt antwoorden accuraat, maar de standaardpipeline is sequentieel: wachten tot de gebruiker is uitgesproken, transcriberen, embedden, ophalen, genereren, spreken. Elke stap voegt vertraging toe, en in een gesproken gesprek voelt een pauze van één seconde als een storing. Je kunt accuraat zijn of je kunt snel zijn; de pipeline dwingt een keuze af. (Als de RAG-mechanica hier nieuw is, begin dan met wat RAG is en de bredere vraag hoe LLM's antwoorden genereren.)

Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage (Meta, met co-auteurs van Carnegie Mellon) lost de afweging op door de stappen te laten overlappen. Het verwerkt binnenkomende gebruikersaudio in blokken met vaste tijdsduur en vuurt retrieval-/tool-queries af parallel terwijl de gebruiker nog aan het praten is — zodat tegen de tijd dat ze stoppen, het bewijs al binnen is en de latency verborgen zit achter de eigen spraak van de gebruiker. Dit is, voor zover de auteurs weten, de eerste aanpak die tool-gebruik rechtstreeks in een end-to-end speech-in/speech-out-systeem duwt in plaats van in een gecascadeerde ASR→LLM→TTS-stack, en het is modaliteitsonafhankelijk (het geldt ook voor getypte invoer).

De terugblik vatte dit op als één enkele methode, "Fixed-Interval Streaming RAG", maar de paper stelt in werkelijkheid twee complementaire varianten voor. Fixed-Interval vuurt queries af met een vaste cadans (~1s), waarbij een externe "reflector"-module beoordeelt of er genoeg context is opgebouwd. Model-Triggered Streaming RAG gebruikt kortere blokken van ~500ms en laat het model zelf leren wanneer het een tool-call moet afvuren. Het onderscheid doet ertoe omdat de sterkste resultaten van de Model-Triggered-variant komen, niet van de fixed-interval-variant: de QA-nauwkeurigheid verbetert tot 200% relatief (11,1% → 34,2% absoluut) op Qwen2.5-7B, met een tool-gebruik-latency die ~20,7% lager ligt op synthetische audio en tot 53,4% op door mensen opgenomen audio. (Tool-integratie alleen al — vóór streaming — leverde al een relatieve nauwkeurigheidswinst van 140% op.) De paper draagt ook AudioCRAG bij, een spraakbenchmark afgeleid van de publieke CRAG QA-dataset, met zowel TTS-gesynthetiseerde (1.862 queries) als door mensen opgenomen (618 queries) splitsingen. De betrouwbaarheidsles is subtiel: gronding telt alleen als ze snel genoeg is om gebruikt te worden, en leren wanneer je ophaalt is beter dan ophalen op een vaste klok.

Formele verificatie en wiskunde: van GPT-f tot neurale netten in Lean

Pull quote: Capaciteit en vertrouwen zijn geen aparte sporen. Ze grijpen steeds naar elkaars gereedschap. — Crux Digits

Als self-play en voice-agents gaan over dingen goed doen, dan gaat formele verificatie over bewijzen dat je het gedaan hebt. De moderne lijn begint met Generative Language Modeling for Automated Theorem Proving — OpenAI's GPT-f (Polu en Sutskever, 2020), een transformer-prover voor de Metamath-taal. Het inzicht was dat de historische zwakte van geautomatiseerde theorem provers ten opzichte van mensen — het genereren van originele wiskundige termen — precies is waar een generatief taalmodel goed in is. GPT-f vond nieuwe, kortere bewijzen die werden opgenomen in de hoofdbibliotheek van Metamath, voor zover de auteurs weten de eerste keer dat een deep-learning-systeem bewijzen bijdroeg die door een formele-wiskundegemeenschap werden overgenomen. Dat is het zaadje van elke LLM-gebaseerde prover sindsdien, inclusief de DeepSeek-Prover die het SGS-werk hierboven initialiseert.

Twee papers uit 2025–2026 van Anima Anandkumars lean-dojo-groep — opvallend genoeg beide geleid door Robert Joseph George, dus het is een gecoördineerd programma, geen onafhankelijke inspanningen — duwen dit verder. BRIDGE: Building Representations In Domain Guided Program Synthesis (de terugblik parafraseerde de titel als "...Domain-Guided Verified Program Synthesis"; de canonieke arXiv-titel bevat geen "Verified" en laat "Domain Guided" zonder koppelteken) pakt aantoonbaar correcte code aan. Het is een gestructureerd promptingframework dat geverifieerde synthese ontleedt in drie gekoppelde domeinen — Code, Specificaties en Theorem Statements — met een code-first-workflow in Lean 4 waarin de gegenereerde implementatie de downstream-spec en correctheidsclaim verankert. Het verbetert de uitvoerbare correctheid in Lean met ruwweg 1,5x (pass@5) over 178 algoritmische problemen en vijf LLM's, en de aanpak generaliseert naar Coq/Rocq, Dafny en Boogie.

De opvallendste zet is TorchLean: Formalizing Neural Networks in Lean, dat neurale netwerken behandelt als zowel uitvoerbare programma's als wiskundige objecten met een gedeelde semantiek binnen Lean 4. Het biedt een PyTorch-achtige geverifieerde API (eager- en compiled-modi die neerdalen naar een gedeelde, op-getagde IR), expliciete Float32-semantiek via een uitvoerbare IEEE-754 binary32-kernel, en verificatie via interval bound propagation en CROWN/LiRPA-achtige bound propagation met certificaatcontrole. De semantische lagen bestrijken attention en FlashAttention, state-space-modellen, diffusie-samplers en RL/MDP-objectieven, en het levert een gemechaniseerde universal approximation theorem mee, naast end-to-end-validatie op gecertificeerde robuustheid, PINN-residugrenzen en Lyapunov-achtige verificatie van neurale controllers. Het traject van GPT-f naar TorchLean is veelzeggend: we begonnen met het gebruiken van neurale netten om bewijzen te vinden, en nu gebruiken we proof assistants om de neurale netten zelf te certificeren.

De rode draad

Samen gelezen zijn de vier papers vier antwoorden op dezelfde vraag — hoe maken we modellen zowel capabeler als betrouwbaarder? — en ze blijven elkaars gereedschap lenen om dat te doen.

Capaciteit is steeds meer een verhaal over zelf-gegenereerde data en schaal: ESMC/ESMFold2 laten schaal de structurele priors ontdekken die MSA's vroeger met de hand engineerden, terwijl SGS en Composer 2 RL zijn eigen verifieerbare curriculum laten fabriceren. Betrouwbaarheid is een verhaal over verificatie en gronding: Stream RAG houdt antwoorden gebonden aan opgehaald bewijs zonder een latency-tax te betalen, terwijl BRIDGE en TorchLean code en zelfs neurale netwerken duwen in een setting waar correctheid mechanisch controleerbaar is. De splitsing weerspiegelt de bredere kloof tussen agentic en generatieve AI — systemen die handelen en verifiëren versus systemen die louter produceren.

De belangrijkste dwarsverbinding is dat verificatie de motor van capaciteit aan het worden is. SGS schaalt alleen omdat Lean het kan vertellen welke bewijzen werkelijk kloppen; Composer 2 verbetert alleen omdat sandboxed code óf draait óf niet. Ground truth die een machine kan bevestigen — een kloppend bewijs, een slagende test, een gevouwen structuur die overeenkomt met de werkelijkheid — is de schaarse grondstof. De labs die de capaciteitsrace winnen, zijn degenen die uitvogelden hoe je die fabriceert.

Voor een breder beeld van de trends waar deze papers in passen, zie ons gerelateerde stuk over waar AI naartoe gaat in 2026.

---

Bij Crux Digits bouwen we toegepaste AI voor bedrijven, met vaste scope: een audit, dan een proof of concept, dan productie — EU/AVG-bewust en met human-in-the-loop van begin tot eind. Als een baanbrekend idee hier aansluit op een echt probleem dat je aan het inschatten bent, begin een gesprek of lees meer over onze AI-consultancy in Nederland.

Referenties

Language Modeling Materializes a World Model of Protein Biology — Biohub (voorheen EvolutionaryScale), bioRxiv, juni 2026.
Biohub: A world model of protein biology (ESMFold2 / ESM Atlas-release)
ESM Cambrian (ESMC) — EvolutionaryScale-blog, december 2024
ESM/ESMFold2: The Bitter Lesson is Coming for Proteins — Alex Rives, Latent Space
Evolutionary-scale prediction of atomic-level protein structure with a language model (ESM-2/ESMFold) — Lin et al., Science, 2023.
Simulating 500 million years of evolution with a language model (ESM3) — Hayes et al., Science, 2025.
Scaling Self-Play with Self-Guidance (SGS) — Bailey, Wen, Dong, Hashimoto, Ma (Stanford), arXiv 2604.20209.
STP: Self-play LLM Theorem Provers with Iterative Conjecturing and Proving — Dong & Ma, arXiv 2502.00212.
Composer 2 Technical Report — Cursor Research (Anysphere), arXiv 2603.24477.
Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage — Meta & CMU, arXiv 2510.02044.
Generative Language Modeling for Automated Theorem Proving (GPT-f) — Polu & Sutskever (OpenAI), arXiv 2009.03393.
BRIDGE: Building Representations In Domain Guided Program Synthesis — George et al. (lean-dojo / Anandkumar-groep), arXiv 2511.21104.
TorchLean: Formalizing Neural Networks in Lean — George et al. (lean-dojo / Anandkumar-groep), arXiv 2602.22631.

Veelgestelde vragen

Welke vier AI-onderzoekspapers worden behandeld, en waarom juist deze vier?

Het stuk behandelt een eiwit-taalmodel (ESMC/ESMFold2 van Biohub), een self-play-loop voor het bewijzen van stellingen (Scaling Self-Play with Self-Guidance, SGS), een streaming voice-RAG-systeem (Stream RAG van Meta en CMU) en twee Lean 4-verificatieframeworks (BRIDGE en TorchLean). Ze zijn gekozen omdat ze, hoewel ze uiteenlopende vakgebieden bestrijken, allemaal op dezelfde as liggen: modellen óf capabeler óf betrouwbaarder maken. Samen laten ze zien hoe die twee doelen steeds vaker elkaars gereedschap lenen.

Wat is het 'bitter lesson'-argument in eiwitstructuurvoorspelling?

Het is de weddenschap dat je moet stoppen met het met de hand engineeren van inductieve biases — zoals de multiple sequence alignments (MSA's) waar AlphaFold2 op leunt — en in plaats daarvan geschaald, ongesuperviseerd leren plus inference-time compute die priors zelf laat ontdekken. ESM-2/ESMFold liet MSA-vrij folden voor het eerst zien in 2023, en het nieuwere ESMC- en ESMFold2-werk duwt het idee verder, door MSA's te degraderen tot een optionele nauwkeurigheidsboost voor lastige doelen. Het weerspiegelt diezelfde trend van schaal-boven-engineering die je ziet bij LLM-pretraining.

Waarom heeft self-play voor LLM's een derde 'Guide'-rol nodig?

Naïeve self-play met twee rollen, waarbij één model problemen verzint en een ander ze oplost, neigt onder zware compute naar instorting: de conjecturer leert zijn beloning te hacken door ingewikkelde problemen uit te spugen die goed scoren maar niets leren. De Guide, geïntroduceerd in SGS, scoort synthetische problemen op relevantie ten opzichte van onopgeloste doelen en op hoe schoon ze zijn, en houdt zo het curriculum eerlijk. De les is dat zelfverbetering verder schaalt met begeleiding, maar dat het geen onbegrensde, oneindige lus is.

Hoe maakt streaming RAG voice-agents zowel snel als gegrond?

Een standaard RAG-voice-pipeline draait sequentieel — wachten, transcriberen, embedden, ophalen, genereren, spreken — wat merkbare latency toevoegt. Stream RAG laat deze stappen overlappen, verwerkt audio in blokken met vaste tijdsduur en vuurt retrieval- en tool-queries parallel af terwijl de gebruiker nog aan het praten is. Tegen de tijd dat de gebruiker stopt, is het bewijs al binnen, zodat de latency verborgen zit achter zijn eigen spraak. De sterkste winst komt van een model-getriggerde variant die leert wanneer er moet worden opgehaald in plaats van op een vaste klok af te vuren.

Wat is het verband tussen GPT-f en het formaliseren van neurale netwerken in Lean?

GPT-f (2020) gebruikte een generatief taalmodel om originele bewijzen te vinden, waarvan sommige werden opgenomen in de Metamath-bibliotheek — de eerste keer dat een deep-learning-systeem bewijzen bijdroeg die door een formele-wiskundegemeenschap werden overgenomen. Het nieuwere BRIDGE- en TorchLean-werk keert de relatie om: in plaats van neurale netten te gebruiken om bewijzen te vinden, gebruikt het proof assistants zoals Lean 4 om de neurale netwerken zelf te certificeren, met geverifieerde API's, expliciete floating-point-semantiek en bound-propagation-certificaten. De boog loopt van AI gebruiken om wiskunde te doen naar wiskunde gebruiken om AI te verifiëren.

Het AI-onderzoek dat de toekomst vormgeeft: vier papers om in de gaten te houden

Het AI-onderzoek dat de toekomst vormgeeft: vier papers om in de gaten te houden

AI voor biologie: de bitter lesson komt eraan voor eiwitten

Self-play voor LLM's: een Guide tegen reward hacking

Realtime voice-agents: ophalen terwijl de gebruiker nog praat

Formele verificatie en wiskunde: van GPT-f tot neurale netten in Lean

De rode draad

Referenties

Veelgestelde vragen

Hoe genereren LLM's antwoorden? Uitleg in gewone taal

Waar AI naartoe gaat: de trends die 2026 en daarna bepalen

AI-agent use-cases voor bedrijven: waar het loont

Wat is een AI-hallucinatie? Heldere uitleg voor bedrijven

Iets hiervan toepassen in uw bedrijf?