In een recente cross-sectionele studie onderzochten researchers de prestaties van grote taalmodellen (LLM’s) in neurologie-examens.
Het onderzoek, dat gebruik maakte van een vragenbank die was goedgekeurd door de American Board of Psychiatry and Neurology, onthulde inzichten in deze geavanceerde taalmodellen.
ChatGPT domineert examen neurologie
Voor het onderzoek werden twee versies van de LLM ChatGPT gebruikt: versie 3.5 en versie 4. De bevindingen toonden aan dat LLM 2 sterke prestaties levert ten opzichte van zijn voorganger. Bovendien overtrof het zelfs de gemiddelde menselijke score op het neurologie-examen.
Volgens de bevindingen beantwoordde LLM 2 85,0% van de vragen correct. De gemiddelde menselijke score is 73,8%.
Deze data suggereren dat, met verdere verfijningen, grote taalmodellen sterke toepassingen kunnen vinden in de klinische neurologie en gezondheidszorg.
Lees meer: 9 ChatGPT-prompts en tips om de perfecte functieomschrijving te maken
ChatGPT presteert beter op examenvragen van lagere orde
Maar zelfs het oudere model, LLM 1, liet voldoende prestaties zien, zij het iets onder het menselijke gemiddelde, met een score van 66,8%.
Beide modellen gebruikten consequent zelfverzekerde taal, ongeacht de juistheid van hun antwoorden, wat wijst op een potentieel gebied voor verbetering in toekomstige iteraties.
Volgens het onderzoek werden vragen ingedeeld in lagere-orde en hogere-orde op basis van de taxonomie van Bloom.
Beide modellen presteerden beter op vragen van lagere orde. LLM 2 presteerde echter uitmuntend op zowel vragen van lagere als hogere orde, wat de veelzijdigheid en cognitieve vaardigheden aantoont.
Lees meer: ChatGPT vs. Google Bard: Een vergelijking van AI-chatbots
Disclaimer
Alle informatie op onze website wordt te goeder trouw en uitsluitend voor algemene informatiedoeleinden gepubliceerd. Elke actie die de lezer onderneemt op basis van de informatie op onze website is strikt op eigen risico.