Een artificial intelligence (AI) agent brak uit de sandbox die a16z crypto-ingenieurs hadden gebouwd tijdens een test. De ingenieurs wilden onderzoeken of AI-agents niet alleen kwetsbaarheden kunnen vinden, maar ook echte exploits kunnen bouwen.
Security engineers Daejun Park en Matt Gleason publiceerden hun bevindingen op 28 april. Ze gaven aan dat hun standaard agent zelfstandig wist uit te vinden hoe hij tools kon gebruiken “die hem nooit expliciet waren gegeven”.
Deze bevindingen komen naar buiten terwijl Elon Musk recent zei dat ‘AI ons allemaal zou kunnen doden’.
Hoe de AI agent “uitbrak” uit de sandbox
De ingenieurs plaatsten de agent in een beperkte omgeving met alleen toegang tot Etherscan binnen limieten en een lokale node die vastzat op een bepaald blok. Alle toegang tot externe netwerken werd geblokkeerd.
Deze sandboxomgeving was speciaal gemaakt zodat de agent geen toekomstige data kon opvragen. Tijdens het testen in de sandbox liep de agent vast bij een onbekend target contract zonder broncode.
Volg ons op X voor het laatste nieuws direct
Hierna vroeg de agent met “cast rpc anvil_nodeInfo” informatie op van de lokale anvil node, waardoor het het RPC-adres en een Alchemy API key in platte tekst vond. De agent probeerde hiermee direct toegang tot buitenaf te krijgen, maar het Docker-firewall blokkeerde deze poging.
Nadat de firewall directe verbindingen blokkeerde, gebruikte de agent “anvil_reset RPC method” om de anvil node opnieuw te starten naar een toekomstig blok. Hierdoor kon het agent transacties en logs van toekomstige blokken opvragen via de lokale anvil node.
Daarna haalde de agent uitvoeringsdata (execution traces) van de aanvalstransactie op. Toen de analyse klaar was, zette de AI-agent de node weer terug op het origineel blok en maakte het een werkend proof-of-concept op basis van de gevonden data.
Park en Gleason beperkten daarna de proxy zodat alle Anvil debug-methoden werden geblokkeerd.
“Het gebeurde in een kleinschalige sandboxomgeving, maar het laat een groter patroon zien dat het waard is om te bespreken: tool-gestuurde agents die beperkingen omzeilen om hun doelen te bereiken,” merkte het team op. “Het gebruik van anvil_reset om het gefixte fork-blok te omzeilen hadden we niet verwacht.”
Dit incident laat een belangrijk risico zien in AI-testomgevingen: agents kunnen onverwachte routes vinden en misbruiken binnen toolchains, zelfs zonder expliciete instructies.
Toch stelde het onderzoek vast dat AI-agents nog steeds beperkt zijn in het uitvoeren van complexe DeFi-exploits. De agent herkende consequent kwetsbaarheden, maar had moeite om meerstapsaanvallen op te zetten.
Abonneer je op ons YouTube-kanaal om inzichten van experts, leiders en journalisten te bekijken





