一項新研究發(fā)現(xiàn),雖然先進的人工智能(AI)模型在專業(yè)醫(yī)學(xué)考試中得分很高,但在通過與患者交談從而診斷疾病方面仍然不及格。1月2日,相關(guān)研究成果發(fā)表于《自然-醫(yī)學(xué)》。
美國哈佛大學(xué)的Pranav Rajpurkar說:“雖然大型語言模型在測試中的表現(xiàn)令人印象深刻,但在動態(tài)對話中,它們的準(zhǔn)確性明顯下降,尤其是難以進行開放式診斷推理?!?/p>
研究人員開發(fā)出一種方法,基于模擬醫(yī)患對話評估“臨床AI”模型的推理能力。這些“患者”基于2000個醫(yī)療案例。這些案例主要來自美國醫(yī)學(xué)委員會的專業(yè)考試。
同樣來自哈佛大學(xué)的Shreya Johri說:“模擬醫(yī)患互動可以評估病史采集技能,這是臨床實踐的一個關(guān)鍵組成部分?!彼硎荆碌脑u估基準(zhǔn)被稱為CRAFT-MD,“反映了現(xiàn)實生活中的情況,即患者可能不知道哪些細節(jié)是至關(guān)重要的,只有在回答特定問題時才會披露重要信息”。
CRAFT-MD基準(zhǔn)本身依賴于AI。美國OpenAI公司的GPT-4模型在與被測試的“臨床AI”的對話中扮演了“患者AI”的角色。GPT-4還通過將“臨床AI”的診斷結(jié)果與每個病例的正確答案進行比較來評分。人類醫(yī)學(xué)專家對這些評估進行了復(fù)核。他們還審查了對話,以檢查“患者AI”的準(zhǔn)確性,并查看“臨床AI”是否成功收集了相關(guān)的醫(yī)療信息。
多項實驗表明,4種領(lǐng)先的大型語言模型——OpenAI的GPT-3.5和GPT-4、美國Meta公司的Llama-2-7b和法國Mistral AI公司的Mistral-v2-7b,在基于對話的基準(zhǔn)測試中的表現(xiàn)遠不如根據(jù)書面摘要進行診斷時的表現(xiàn)。
例如,當(dāng)提供結(jié)構(gòu)化的病例摘要并允許從多項答案中作出選擇時,GPT-4的診斷準(zhǔn)確率高達82%,而沒有多項選擇時,其診斷準(zhǔn)確率則降至49%以下。然而,當(dāng)它不得不通過與模擬的患者對話進行診斷時,準(zhǔn)確率降至26%。
在這項研究中,通常GPT-4是表現(xiàn)最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。
AI模型在大多數(shù)情況下未能收集完整的病史,比如GPT-4僅在71%的模擬患者對話中做到了這一點。即使AI模型收集了患者的相關(guān)病史,它們也并不總是能夠作出正確的診斷。
美國斯克利普斯研究轉(zhuǎn)化研究所的Eric Topol表示,模擬患者對話代表了一種比醫(yī)學(xué)考試“更有用”的評估AI臨床推理能力的方法。
Rajpurkar說,即使一個AI模型最終通過了這一基準(zhǔn),能夠根據(jù)模擬的患者對話持續(xù)作出準(zhǔn)確診斷,也并不一定意味著它就優(yōu)于人類醫(yī)生。他指出,現(xiàn)實世界中的醫(yī)療實踐比模擬的“更混亂”,涉及管理多名患者、與醫(yī)療團隊協(xié)調(diào)、進行身體檢查,以及了解當(dāng)?shù)蒯t(yī)療情況中“復(fù)雜的社會和系統(tǒng)因素”。“AI是支持臨床工作的強大工具,但不一定能取代經(jīng)驗豐富的醫(yī)生的整體判斷?!盧ajpurkar說。 (文樂樂)
相關(guān)論文信息:
https://doi.org/10.1038/s41591-024-03328-5
《中國科學(xué)報》 (2025-01-07 第2版 國際)