Virale BridgeBench-post beweert dat Claude Opus 4.6 ‘nerfed’ is: critici noemen het slechte wetenschap

  • Een viraal X-bericht beweerde dat Claude Opus 4.6-hallucinaties met 98% stegen.
  • Critici zagen dat de vergelijking verschillende testgroottes gebruikte, geen gelijke benchmarks.
  • Zelfde-taak analyse toont minimale verandering, binnen normale AI-variatie.
Promo

BridgeMind AI beweerde dat Claude Opus 4.6 van Anthropic stilletjes was verslechterd na een nieuwe hallucinatietest. Deze virale post kreeg echter veel kritiek vanwege een gebrekkige methode.

De bewering zorgde voor veel discussie over de vraag of AI-bedrijven betaalde modellen onopgemerkt minder maken om kosten te besparen.

Gesponsord
Gesponsord

BridgeMind claimt een stijging van 98% in hallucinaties

BridgeMind, het team achter de BridgeBench coderingstest, plaatste dat Claude Opus 4.6 was gezakt van de tweede naar de tiende plek op hun hallucinatieranglijst. De nauwkeurigheid zou gedaald zijn van 83,3% naar 68,3%.

“CLAUDE OPUS 4.6 IS VERZWAKT. BridgeBench heeft het net bewezen. Vorige week stond Claude Opus 4.6 op de tweede plek van de Hallucination-benchmark met een nauwkeurigheid van 83,3%. Vandaag is Claude Opus 4.6 opnieuw getest en stond het op #10 met een nauwkeurigheid van slechts 68,3%,” schreven zij.

In de post werd dit als bewijs gezien van “verminderde redeneerkracht”. Maar als je naar de onderliggende gegevens kijkt, is het verhaal anders.

Critici zeggen dat de vergelijking fundamenteel onjuist is

Volgens computerwetenschapper Paul Calcraft is de claim “echt slechte wetenschap” en wijst hij op ernstige problemen met de werkwijze.

“Echt slechte wetenschap. Jullie testten Opus vandaag op 30 taken, het vorige resultaat was op slechts *6* taken. Resultaten voor de 6 taken die hetzelfde zijn: 85,4% vandaag versus 87,6% eerder. De daling komt vooral door één extra fout, zonder herhaling – puur statistische ruis,” merkte Calcraft op.

De oorspronkelijke hoge score was gebaseerd op zes benchmark-taken. De nieuwe test keek naar dertig taken.

Bij de zes overlappende taken was de prestatie bijna gelijk, van 87,6% naar 85,4%.

Gesponsord
Gesponsord

Deze kleine verandering kwam vooral door één extra fout in één taak. Omdat de test niet herhaald werd, valt dit ruim binnen de normale statistische variatie bij AI-modellen.

Grote taalmodellen zijn niet exact hetzelfde bij elke run. Eén fout antwoord op een kleine steekproef kan de uitkomst veel beïnvloeden.

Algemene frustraties voeden het verhaal

Toch raakte het bericht een gevoelig punt. Sinds de lancering in februari 2026 krijgt Claude Opus 4.6 regelmatig klachten over afnemende kwaliteit.

Ontwikkelaars melden kortere antwoorden, minder goed instructies opvolgen en minder diepgaande redeneringen tijdens drukke uren.

Een deel hiervan komt door bewuste aanpassingen. Anthropic voerde bijvoorbeeld sturing op denkvermogen in, waardoor het model zelf kan kiezen hoeveel tijd het stopt in redeneren. De standaardinstelling staat nu op gemiddeld, met als doel meer efficiëntie boven maximale diepgang.

Onafhankelijke analyse van ruim 6.800 Claude Code-sessies liet zien dat de redeneerkracht medio februari met ongeveer 67% was gedaald.

Gesponsord
Gesponsord

Het bestand-leespercentage van het model vóór het aanpassen van code daalde van 6,6 naar 2,0. Dit betekent dat het model probeerde code te verbeteren die het nauwelijks had bekeken.

Wat betekent dit voor AI-gebruikers

Dit laat zien dat de spanning in de AI-industrie groeit. Bedrijven passen modellen aan om ze goedkoper en groter te maken na de lancering, maar veelgebruikers willen juist steeds maximale prestatie. Dat verschil zorgt voor minder vertrouwen.

Op basis van het beschikbare bewijs toont de BridgeBench-data geen bewuste verslechtering aan. De vergelijking van benchmarks was appels met peren, en de overlappende resultaten waren bijna gelijk.

Toch is de frustratie niet helemaal ongegrond. Door adaptieve sturing en optimalisatie per gebruiker werkt Claude Opus 4.6 nu in de praktijk echt anders. Voor ontwikkelaars die rekenen op stabiele resultaten, is dat belangrijk.

Anthropic heeft tot 13 april geen openbare reactie gegeven op de specifieke BridgeBench-beweringen.

Om de nieuwste analyse van de cryptomarkt van BeInCrypto te lezen, klik hier.

Disclaimer

Alle informatie op onze website wordt te goeder trouw en uitsluitend voor algemene informatiedoeleinden gepubliceerd. Elke actie die de lezer onderneemt op basis van de informatie op onze website is strikt op eigen risico.

Gesponsord
Gesponsord