BridgeMind AI beweerde dat Claude Opus 4.6 van Anthropic stilletjes was verslechterd na een nieuwe hallucinatietest. Deze virale post kreeg echter veel kritiek vanwege een gebrekkige methode.
De bewering zorgde voor veel discussie over de vraag of AI-bedrijven betaalde modellen onopgemerkt minder maken om kosten te besparen.
BridgeMind claimt een stijging van 98% in hallucinaties
BridgeMind, het team achter de BridgeBench coderingstest, plaatste dat Claude Opus 4.6 was gezakt van de tweede naar de tiende plek op hun hallucinatieranglijst. De nauwkeurigheid zou gedaald zijn van 83,3% naar 68,3%.
“CLAUDE OPUS 4.6 IS VERZWAKT. BridgeBench heeft het net bewezen. Vorige week stond Claude Opus 4.6 op de tweede plek van de Hallucination-benchmark met een nauwkeurigheid van 83,3%. Vandaag is Claude Opus 4.6 opnieuw getest en stond het op #10 met een nauwkeurigheid van slechts 68,3%,” schreven zij.
In de post werd dit als bewijs gezien van “verminderde redeneerkracht”. Maar als je naar de onderliggende gegevens kijkt, is het verhaal anders.
Critici zeggen dat de vergelijking fundamenteel onjuist is
Volgens computerwetenschapper Paul Calcraft is de claim “echt slechte wetenschap” en wijst hij op ernstige problemen met de werkwijze.
“Echt slechte wetenschap. Jullie testten Opus vandaag op 30 taken, het vorige resultaat was op slechts *6* taken. Resultaten voor de 6 taken die hetzelfde zijn: 85,4% vandaag versus 87,6% eerder. De daling komt vooral door één extra fout, zonder herhaling – puur statistische ruis,” merkte Calcraft op.
De oorspronkelijke hoge score was gebaseerd op zes benchmark-taken. De nieuwe test keek naar dertig taken.
Bij de zes overlappende taken was de prestatie bijna gelijk, van 87,6% naar 85,4%.
Deze kleine verandering kwam vooral door één extra fout in één taak. Omdat de test niet herhaald werd, valt dit ruim binnen de normale statistische variatie bij AI-modellen.
Grote taalmodellen zijn niet exact hetzelfde bij elke run. Eén fout antwoord op een kleine steekproef kan de uitkomst veel beïnvloeden.
Algemene frustraties voeden het verhaal
Toch raakte het bericht een gevoelig punt. Sinds de lancering in februari 2026 krijgt Claude Opus 4.6 regelmatig klachten over afnemende kwaliteit.
Ontwikkelaars melden kortere antwoorden, minder goed instructies opvolgen en minder diepgaande redeneringen tijdens drukke uren.
Een deel hiervan komt door bewuste aanpassingen. Anthropic voerde bijvoorbeeld sturing op denkvermogen in, waardoor het model zelf kan kiezen hoeveel tijd het stopt in redeneren. De standaardinstelling staat nu op gemiddeld, met als doel meer efficiëntie boven maximale diepgang.
Onafhankelijke analyse van ruim 6.800 Claude Code-sessies liet zien dat de redeneerkracht medio februari met ongeveer 67% was gedaald.
Het bestand-leespercentage van het model vóór het aanpassen van code daalde van 6,6 naar 2,0. Dit betekent dat het model probeerde code te verbeteren die het nauwelijks had bekeken.
Wat betekent dit voor AI-gebruikers
Dit laat zien dat de spanning in de AI-industrie groeit. Bedrijven passen modellen aan om ze goedkoper en groter te maken na de lancering, maar veelgebruikers willen juist steeds maximale prestatie. Dat verschil zorgt voor minder vertrouwen.
Op basis van het beschikbare bewijs toont de BridgeBench-data geen bewuste verslechtering aan. De vergelijking van benchmarks was appels met peren, en de overlappende resultaten waren bijna gelijk.
Toch is de frustratie niet helemaal ongegrond. Door adaptieve sturing en optimalisatie per gebruiker werkt Claude Opus 4.6 nu in de praktijk echt anders. Voor ontwikkelaars die rekenen op stabiele resultaten, is dat belangrijk.
Anthropic heeft tot 13 april geen openbare reactie gegeven op de specifieke BridgeBench-beweringen.





