每日經(jīng)濟新聞 2024-09-13 22:55:44
◎醫(yī)師邳靖陶模擬了一個復(fù)雜的臨床場景,大模型給出的治療方案和預(yù)想的“標(biāo)準(zhǔn)答案”有所出入。而當(dāng)邳靖陶用“標(biāo)準(zhǔn)答案”去匹配臨床指南時,讓他印象深刻的結(jié)果出現(xiàn)了:是自己的診療思路存在盲區(qū)。
每經(jīng)記者 林姿辰 每經(jīng)編輯 張海妮
距離谷歌大模型(Med-PaLM 2)拿下美國醫(yī)學(xué)執(zhí)照考試已經(jīng)快兩年了,人工智能(AI)夠資格成為臨床醫(yī)生的“假想敵”了嗎?
今年7月,一篇發(fā)表于Nature Medicine的論文顯示,即使是目前最先進的大語言模型(LLM)也無法為所有患者做出準(zhǔn)確診斷,且診斷正確率(73%)明顯差于人類醫(yī)生(89%);在極端情況(膽囊炎診斷)下,LLM的正確率僅為13%。
但對于北京清華長庚醫(yī)院神經(jīng)中心醫(yī)師邳靖陶來說,他今年剛被AI“上了一課”。8月下旬,邳靖陶參與的靈犀醫(yī)學(xué)腦血管病專病大模型正式發(fā)布,該模型由其所在醫(yī)院的神經(jīng)中心武劍教授團隊主導(dǎo)研發(fā),是國內(nèi)首個基于專病的醫(yī)學(xué)人工智能模型。
“大模型的能力說強也強,說弱也弱,我們不能讓它天馬行空地自由發(fā)揮。”邳靖陶表示,專病大模型與ChatGPT的最大不同,是要將AI杜撰的似是而非的診療建議扼殺在搖籃里,避免災(zāi)難性后果。
作為國內(nèi)四大慢病之一,腦血管病的首次發(fā)病者約有2/3是60歲以上的老年人,其具有“高發(fā)病率、高患病率、高死亡率、高復(fù)發(fā)率”的特點。而截至2021年,我國65歲以上的老年人口已經(jīng)超過2億人,腦血管病醫(yī)生短缺、水平參差不齊的問題尤為突出。
“基層醫(yī)院不缺全科醫(yī)生,但缺??茖<一?qū)2<遥@就是大模型要解決的問題。”邳靖陶介紹,腦血管病專病大模型是醫(yī)療機構(gòu)與科技企業(yè)的合作產(chǎn)物。具體來說,新華三集團提供技術(shù)人員、AI算法和算力,北京清華長庚醫(yī)院和清華大學(xué)提供大數(shù)據(jù)和臨床需求,共同打造一款面向臨床醫(yī)生的輔助診斷工具。
武劍教授曾表示,醫(yī)學(xué)人工智能在緩解醫(yī)療資源緊張和提升醫(yī)療服務(wù)水平方面,具有巨大的潛力和優(yōu)勢。其核心在于對海量健康數(shù)據(jù)的深度挖掘和智能分析,這能夠大幅提升臨床診斷和治療的準(zhǔn)確性與效率。
目前,這個大模型的核心功能是分析和提取病歷中的關(guān)鍵信息,并與臨床知識庫相匹配,最終提供符合臨床指南的標(biāo)準(zhǔn)化治療建議。
一方面,臨床醫(yī)生可以輸入脫敏(不包括患者個人信息)的臨床病程信息,由大模型生成最終的治療方案。期間,如果大模型察覺到病程信息存在疏漏,會提醒醫(yī)生及時補充,保證病歷記錄的標(biāo)準(zhǔn)化。
另一方面,臨床醫(yī)生也可以輸入患者主訴(如主要癥狀和持續(xù)時間等信息)等簡單信息,大模型將通過選擇性交互引導(dǎo)問診方向,根據(jù)醫(yī)生點擊的選項,逐步完善臨床診療過程,提升醫(yī)生的循證能力。
在邳靖陶看來,與ChatGPT等通用大模型相比,專病大模型的專業(yè)性體現(xiàn)在思維鏈和知識庫兩方面。以腦血管病專病大模型為例,其數(shù)據(jù)來源包括兩大部分:一部分是經(jīng)過脫敏處理的臨床資料,涉及疾病的特定特征,發(fā)病情況以及診療過程等綜合信息。另一部分是公開獲取的臨床指南、大量神經(jīng)病學(xué)和神經(jīng)科學(xué)的教科書和參考書籍,這些構(gòu)成了數(shù)據(jù)庫的核心內(nèi)容。值得注意的是,大模型并不能直接接收這些知識,而是需要經(jīng)臨床醫(yī)生和工科團隊之手,將臨床指南的框架和重點內(nèi)容重新整理,轉(zhuǎn)化為計算機能夠理解的語言和流程后,再輸給大模型。
“如果不加限制地直接投喂,大模型會發(fā)散到其他方面,生成一些新的理解。但臨床指南已經(jīng)是最高級別的標(biāo)準(zhǔn)化診療推薦,在此基礎(chǔ)上的任何修改都是錯誤的,也不是我們想要的。”邳靖陶告訴記者,想讓大模型“聽話”,除了要投喂計算機能“聽懂”的知識,更關(guān)鍵的是教給它一套臨床醫(yī)生的“思維鏈”,并依托這一能力對不同患者的臨床資料進行推理。
例如,一位腦血管病醫(yī)生的診療流程大致包括詢問病史,進行體格檢查,考慮輔助檢查,綜合分析后給出準(zhǔn)確診斷等環(huán)節(jié)?;谠\斷結(jié)果,醫(yī)生會考慮患者的具體病因和其他基礎(chǔ)疾病情況,結(jié)合標(biāo)準(zhǔn)化的診療建議,制定規(guī)范化的治療方案。
在這個過程中,不同的患者主訴指向不同的詢問方向。但問題是,大模型的思維雖然“發(fā)散”,但不具備自主搭建思維鏈的能力,所以需要工科團隊深刻理解臨床診療場景,將醫(yī)生的臨床思維轉(zhuǎn)換為機器可以理解的思維。而這個過程讓臨床醫(yī)生和技術(shù)團隊,都經(jīng)歷了交叉學(xué)習(xí)的歷練。
“Gap(差距)主要是語言交流上的障礙,比如我們不理解思維鏈,他們不理解不同疾病間的關(guān)系。但這不會對我們的研究造成實質(zhì)性影響,只要了解對方領(lǐng)域的基礎(chǔ)知識,就能掃清困難。”邳靖陶說。
邳靖陶透露,目前腦血管病專病大模型正在北京清華長庚醫(yī)院神經(jīng)中心進行臨床驗證。此前,他和同事們曾使用真實病例或模擬復(fù)雜臨床場景,對大模型進行過內(nèi)部測試。這項測試建立在前期簡單測試的基礎(chǔ)之上,旨在評估大模型對不同復(fù)雜程度、不同語言風(fēng)格和不同級別醫(yī)生的病歷的理解能力。
其中,最困擾邳靖陶的一個問題是,如果大模型出現(xiàn)了錯誤,怎么保證臨床醫(yī)生不受干擾呢?換言之,臨床醫(yī)生應(yīng)該怎么處理自己和大模型之間的關(guān)系?
這一矛盾在首次內(nèi)部測試時就出現(xiàn)了。當(dāng)時,邳靖陶模擬了一個復(fù)雜的臨床場景,大模型給出的治療方案和預(yù)想的“標(biāo)準(zhǔn)答案”有所出入。隨后,技術(shù)人員介入并回溯了大模型的推理過程,試圖找出可能的錯誤,卻無功而返。
而當(dāng)邳靖陶用“標(biāo)準(zhǔn)答案”去匹配臨床指南時,讓他印象深刻的結(jié)果出現(xiàn)了:是自己的診療思路存在盲區(qū)。
“一開始這個模型設(shè)計出來,到底能不能用于臨床,能不能起到提升和改善(診療效率)的作用,其實我心里也沒有底。但是這件事兒之后,給了我特別大的底氣。”邳靖陶總結(jié)這次經(jīng)歷,發(fā)現(xiàn)患者的臨床癥狀是一個綜合結(jié)果。例如,患者可能因為神經(jīng)系統(tǒng)問題住院,但心血管、腎臟、肝臟狀況也在發(fā)生變化。盡管醫(yī)生接受過規(guī)范化的??婆嘤?xùn),但診療思維仍可能存在盲點,無法保證每次都能提供全面的診療方案。
另外,臨床指南是不斷更新的,并非所有醫(yī)生都能及時更新知識。當(dāng)醫(yī)生的知識更新滯后時,大模型可以幫助彌補這些紕漏。
不過,閱讀指南并做出判斷,仍是臨床醫(yī)生不能丟棄的基本功。邳靖陶表示,如果醫(yī)生發(fā)現(xiàn)大模型提供的診療方案與自己的判斷不符,不應(yīng)簡單地接受或拒絕,而應(yīng)深入探究原因。這一思考過程有助于醫(yī)生提高臨床診療能力,是大模型作為臨床輔助診斷工具的終極愿景。畢竟,雖然大模型可以提供結(jié)論,但對診療過程負(fù)責(zé)的仍是臨床醫(yī)生本人。
2023年7月,谷歌Research和DeepMind共同打造的全球首個全科醫(yī)療大模型Med-PaLM M正式發(fā)布。資料顯示,這個大模型具備臨床語言、影像和基因組學(xué)的理解能力,用于臨床指日可待。
而根據(jù)《2023醫(yī)療健康A(chǔ)I大模型行業(yè)研究報告》,截至2023年10月,國內(nèi)累計公開的大模型數(shù)量達到238個,其中,醫(yī)療大模型近50個,涉及患者問診、醫(yī)生助手、藥物研發(fā)、健康科普等多個領(lǐng)域。據(jù)邳靖陶觀察,許多醫(yī)療大模型的開發(fā)從“全科”出發(fā),直接構(gòu)建一個涵蓋所有??频拇笮腿颇P?,供用戶咨詢各種疾病。
但在參與構(gòu)建腦血管病專病大模型后,武劍教授團隊對這一模式表示懷疑。他們發(fā)現(xiàn),把一種疾病的臨床指南梳理清楚頗具難度,打造對應(yīng)的思維鏈也耗時耗力,短期內(nèi)很難用同樣的方法訓(xùn)練出全科模型。換言之,目前的全科大模型能夠做到醫(yī)學(xué)科普,但很難在特定專科領(lǐng)域提供有效的臨床指導(dǎo)。因此,武劍教授團隊的研發(fā)思路是以專病為起點,再走向全科。
“如果針對腦血管病的專病大模型走通了,我們可以把成功經(jīng)驗復(fù)制到其他神經(jīng)系統(tǒng)疾病上;如果神經(jīng)系統(tǒng)疾病覆蓋全面了,就成了??拼竽P?;神經(jīng)科的經(jīng)驗再復(fù)制到其他科,就會形成一個真正的全科醫(yī)療大模型。”邳靖陶表示,在武劍教授看來,國內(nèi)發(fā)病人數(shù)越多、疾病負(fù)擔(dān)越大的疾病,其專病大模型的臨床需求和研發(fā)空間就會越大,例如國家發(fā)病率最高的四大慢病——高血壓、糖尿病、冠心病、腦血管病都有非常廣闊的大模型開發(fā)空間。
而在腦血管病專病大模型的發(fā)布會上,武劍教授已經(jīng)通過招募令的形式,呼吁全國神經(jīng)系統(tǒng)疾病領(lǐng)域的專家,以及人工智能領(lǐng)域的專業(yè)人士攜手把握創(chuàng)新技術(shù)的改革可能,改善臨床診療現(xiàn)狀。他曾表示,如果能打破學(xué)術(shù)壁壘,醫(yī)療大模型的重復(fù)性工作是完全可以避免的。
“這不是我們一個人能做的事情。”邳靖陶說。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP