Terug

ChatGPT behaalt 85% in professioneel neurologie-examen

sameAuthor avatar

Geschreven en bewerkt door
Ciaran Lyons

11 december 2023 22:35 UTC
Trusted
  • In een cross-sectionele studie onderzochten researchers de prestaties van grote taalmodellen (LLM's) in een neurologisch examen op professioneel niveau.
  • Beide ChatGPT-versies vertonen vertrouwen in de antwoorden, wat duidt op potentieel voor verbetering in toekomstige iteraties.
  • LLM 2 blinkt uit in zowel vragen van lagere als hogere orde en toont daarmee cognitieve veelzijdigheid. Deze bevindingen wijzen op het transformatieve potentieel.
Promo

In een recente cross-sectionele studie onderzochten researchers de prestaties van grote taalmodellen (LLM’s) in neurologie-examens.

Het onderzoek, dat gebruik maakte van een vragenbank die was goedgekeurd door de American Board of Psychiatry and Neurology, onthulde inzichten in deze geavanceerde taalmodellen.

ChatGPT domineert examen neurologie

Voor het onderzoek werden twee versies van de LLM ChatGPT gebruikt: versie 3.5 en versie 4. De bevindingen toonden aan dat LLM 2 sterke prestaties levert ten opzichte van zijn voorganger. Bovendien overtrof het zelfs de gemiddelde menselijke score op het neurologie-examen.

Sponsored
Sponsored

Volgens de bevindingen beantwoordde LLM 2 85,0% van de vragen correct. De gemiddelde menselijke score is 73,8%.

Deze data suggereren dat, met verdere verfijningen, grote taalmodellen sterke toepassingen kunnen vinden in de klinische neurologie en gezondheidszorg.

https://youtu.be/anPlb3PHWRk?si=1xrj11xtQO7KU0aG

Lees meer: 9 ChatGPT-prompts en tips om de perfecte functieomschrijving te maken

ChatGPT presteert beter op examenvragen van lagere orde

Maar zelfs het oudere model, LLM 1, liet voldoende prestaties zien, zij het iets onder het menselijke gemiddelde, met een score van 66,8%.

Beide modellen gebruikten consequent zelfverzekerde taal, ongeacht de juistheid van hun antwoorden, wat wijst op een potentieel gebied voor verbetering in toekomstige iteraties.

Volgens het onderzoek werden vragen ingedeeld in lagere-orde en hogere-orde op basis van de taxonomie van Bloom.

Beide modellen presteerden beter op vragen van lagere orde. LLM 2 presteerde echter uitmuntend op zowel vragen van lagere als hogere orde, wat de veelzijdigheid en cognitieve vaardigheden aantoont.

Lees meer: ChatGPT vs. Google Bard: Een vergelijking van AI-chatbots

Disclaimer

Alle informatie op onze website wordt te goeder trouw en uitsluitend voor algemene informatiedoeleinden gepubliceerd. Elke actie die de lezer onderneemt op basis van de informatie op onze website is strikt op eigen risico.