Virale BridgeBench-post beweert dat Claude Opus 4.6 'nerfed' is: critici noemen het slechte wetenschap

Virale BridgeBench-post beweert dat Claude Opus 4.6 ‘nerfed’ is: critici noemen het slechte wetenschap

Geschreven en bewerkt door

Gepubliceerd:13 april 2026, 13:13 UTC

Een viraal X-bericht beweerde dat Claude Opus 4.6-hallucinaties met 98% stegen.
Critici zagen dat de vergelijking verschillende testgroottes gebruikte, geen gelijke benchmarks.
Zelfde-taak analyse toont minimale verandering, binnen normale AI-variatie.

BridgeMind AI beweerde dat Claude Opus 4.6 van Anthropic stilletjes was verslechterd na een nieuwe hallucinatietest. Deze virale post kreeg echter veel kritiek vanwege een gebrekkige methode.

De bewering zorgde voor veel discussie over de vraag of AI-bedrijven betaalde modellen onopgemerkt minder maken om kosten te besparen.

Gesponsord

BridgeMind claimt een stijging van 98% in hallucinaties

BridgeMind, het team achter de BridgeBench coderingstest, plaatste dat Claude Opus 4.6 was gezakt van de tweede naar de tiende plek op hun hallucinatieranglijst. De nauwkeurigheid zou gedaald zijn van 83,3% naar 68,3%.

“CLAUDE OPUS 4.6 IS VERZWAKT. BridgeBench heeft het net bewezen. Vorige week stond Claude Opus 4.6 op de tweede plek van de Hallucination-benchmark met een nauwkeurigheid van 83,3%. Vandaag is Claude Opus 4.6 opnieuw getest en stond het op #10 met een nauwkeurigheid van slechts 68,3%,” schreven zij.

In de post werd dit als bewijs gezien van “verminderde redeneerkracht”. Maar als je naar de onderliggende gegevens kijkt, is het verhaal anders.

Critici zeggen dat de vergelijking fundamenteel onjuist is

Volgens computerwetenschapper Paul Calcraft is de claim “echt slechte wetenschap” en wijst hij op ernstige problemen met de werkwijze.

“Echt slechte wetenschap. Jullie testten Opus vandaag op 30 taken, het vorige resultaat was op slechts *6* taken. Resultaten voor de 6 taken die hetzelfde zijn: 85,4% vandaag versus 87,6% eerder. De daling komt vooral door één extra fout, zonder herhaling – puur statistische ruis,” merkte Calcraft op.

De oorspronkelijke hoge score was gebaseerd op zes benchmark-taken. De nieuwe test keek naar dertig taken.

Bij de zes overlappende taken was de prestatie bijna gelijk, van 87,6% naar 85,4%.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Gesponsord

Deze kleine verandering kwam vooral door één extra fout in één taak. Omdat de test niet herhaald werd, valt dit ruim binnen de normale statistische variatie bij AI-modellen.

Grote taalmodellen zijn niet exact hetzelfde bij elke run. Eén fout antwoord op een kleine steekproef kan de uitkomst veel beïnvloeden.

Algemene frustraties voeden het verhaal

Toch raakte het bericht een gevoelig punt. Sinds de lancering in februari 2026 krijgt Claude Opus 4.6 regelmatig klachten over afnemende kwaliteit.

Ontwikkelaars melden kortere antwoorden, minder goed instructies opvolgen en minder diepgaande redeneringen tijdens drukke uren.

Een deel hiervan komt door bewuste aanpassingen. Anthropic voerde bijvoorbeeld sturing op denkvermogen in, waardoor het model zelf kan kiezen hoeveel tijd het stopt in redeneren. De standaardinstelling staat nu op gemiddeld, met als doel meer efficiëntie boven maximale diepgang.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Onafhankelijke analyse van ruim 6.800 Claude Code-sessies liet zien dat de redeneerkracht medio februari met ongeveer 67% was gedaald.

Gesponsord

Het bestand-leespercentage van het model vóór het aanpassen van code daalde van 6,6 naar 2,0. Dit betekent dat het model probeerde code te verbeteren die het nauwelijks had bekeken.

Wat betekent dit voor AI-gebruikers

Dit laat zien dat de spanning in de AI-industrie groeit. Bedrijven passen modellen aan om ze goedkoper en groter te maken na de lancering, maar veelgebruikers willen juist steeds maximale prestatie. Dat verschil zorgt voor minder vertrouwen.

Op basis van het beschikbare bewijs toont de BridgeBench-data geen bewuste verslechtering aan. De vergelijking van benchmarks was appels met peren, en de overlappende resultaten waren bijna gelijk.

Toch is de frustratie niet helemaal ongegrond. Door adaptieve sturing en optimalisatie per gebruiker werkt Claude Opus 4.6 nu in de praktijk echt anders. Voor ontwikkelaars die rekenen op stabiele resultaten, is dat belangrijk.

Anthropic heeft tot 13 april geen openbare reactie gegeven op de specifieke BridgeBench-beweringen.