A Survey of Large Language Models in Medicine: Progress, Application, and Challenge
文章主要內(nèi)容
將LLMs應(yīng)用于醫(yī)學(xué),以協(xié)助醫(yī)生和病人護(hù)理,成為人工智能和臨床醫(yī)學(xué)領(lǐng)域的一個(gè)有前景的研究方向。為此,本綜述提供了醫(yī)學(xué)中LLMs當(dāng)前進(jìn)展、應(yīng)用和面臨挑戰(zhàn)的全面概述。
具體來說,旨在回答以下問題:
1)什么是LLMs,如何構(gòu)建醫(yī)學(xué)LLMs?
2)醫(yī)學(xué)LLMs的下游表現(xiàn)如何?
3)如何在實(shí)際臨床實(shí)踐中使用醫(yī)學(xué)LLMs?
4)使用醫(yī)學(xué)LLMs會(huì)帶來哪些挑戰(zhàn)?
5)我們?nèi)绾胃玫貥?gòu)建和利用醫(yī)學(xué)LLMs?
因此,本綜述旨在提供醫(yī)學(xué)中LLMs的機(jī)遇和挑戰(zhàn)的洞見,并作為構(gòu)建實(shí)用有效的醫(yī)學(xué)LLMs的寶貴資源。醫(yī)學(xué)LLMs的資源的定期更新列表可在 https://github.com/AI-in-Health/MedLLMsPracticalGuide 找到。
這篇文章主要關(guān)注于clinical臨床醫(yī)學(xué)方向的應(yīng)用,但是一些模型以及挑戰(zhàn)也是適用于biomedical方向的。
介紹
**對(duì)于第一個(gè)問題,我們總結(jié)了現(xiàn)有的醫(yī)學(xué)LLMs,詳細(xì)介紹了它們的基本結(jié)構(gòu)、參數(shù)數(shù)量和用于模型開發(fā)的數(shù)據(jù)集。**此外,我們提供了這些模型構(gòu)建過程的洞見。這些信息對(duì)于希望根據(jù)特定需求(如計(jì)算限制、私有數(shù)據(jù)和本地知識(shí)庫)構(gòu)建自己的醫(yī)學(xué)LLMs的研究人員和醫(yī)學(xué)從業(yè)者來說是寶貴的。
對(duì)于第二個(gè)問題,我們對(duì)現(xiàn)有醫(yī)學(xué)LLMs在十個(gè)生物醫(yī)學(xué)NLP任務(wù)中的表現(xiàn)進(jìn)行了廣泛的調(diào)查。這種分析將使我們能夠理解醫(yī)學(xué)LLMs在不同方面如何勝過傳統(tǒng)的醫(yī)學(xué)AI模型。通過展示它們的能力,我們旨在闡明醫(yī)學(xué)LLMs在臨床環(huán)境中部署時(shí)帶來的優(yōu)勢。
第三個(gè)問題關(guān)注醫(yī)學(xué)LLMs在臨床環(huán)境中的實(shí)際應(yīng)用。我們提供了七種臨床應(yīng)用場景的指南和洞見,提供了醫(yī)學(xué)LLMs的具體實(shí)現(xiàn),并突出了每種場景使用了哪些能力。
第四個(gè)問題強(qiáng)調(diào)在臨床實(shí)踐中部署醫(yī)學(xué)LLMs時(shí)必須克服的挑戰(zhàn)。這些挑戰(zhàn)包括幻覺(即生成連貫且與上下文相關(guān)但事實(shí)上不正確的輸出)[27, 28, 29]、可解釋性[30]、倫理、法律和安全問題[31]等。我們還提倡對(duì)醫(yī)學(xué)LLMs進(jìn)行更廣泛的評(píng)估,包括諸如可信度[32]等方面,以確保它們?cè)谂R床環(huán)境中的負(fù)責(zé)任和有效使用。
對(duì)于最后一個(gè)問題,我們提供了發(fā)展醫(yī)學(xué)LLMs的未來方向的洞見。這一部分作為指南,旨在幫助研究人員和從業(yè)者推進(jìn)這一領(lǐng)域,并最大化醫(yī)學(xué)LLMs在醫(yī)學(xué)中的潛力。
醫(yī)療大型語言模型
作者首先總結(jié)了大型語言模型的一些技術(shù),如Transformer,大規(guī)模預(yù)訓(xùn)練,Scaling Laws等
Scaling Law 【1】是OpenAI 2020年提出的概念,模型的最終性能與計(jì)算量,模型參數(shù)量和數(shù)據(jù)大小有關(guān)。
之后DeepMind又提出了Chinchilla Scaling Law 【2】
隨后,作者總結(jié)了通用領(lǐng)域LLM,分為了Encoder-Only,Decoder-only和Encoder-Decoder三種架構(gòu),具體見下表。
現(xiàn)有的醫(yī)療LLMs主要是從零開始預(yù)訓(xùn)練、從現(xiàn)有的一般LLMs微調(diào),或者直接通過提示(prompting)使一般LLMs適應(yīng)醫(yī)療領(lǐng)域。
作者總結(jié)了采用不同方法的醫(yī)療LLM,具體見下表。
但感覺分類方式與其他不太一致,僅供參考。
臨床應(yīng)用
隨后作者討論了LLM在臨床上的應(yīng)用。
Medical Diagnosis 醫(yī)療診斷
醫(yī)學(xué)診斷包括醫(yī)生結(jié)合來自測試的客觀醫(yī)療數(shù)據(jù)和自我描述的主觀癥狀,得出最有可能發(fā)生在病人身上的健康問題的結(jié)論。
準(zhǔn)確和及時(shí)地診斷患者總是很重要的,因?yàn)閷?duì)大多數(shù)疾病的治療效果是非常對(duì)時(shí)間敏感的。
舉例:Dr.Knows一種基于圖的模型,在真實(shí)的醫(yī)院數(shù)據(jù)集上使用可解釋路徑選擇頂級(jí)診斷病例??山忉尩穆窂絹碜杂诮y(tǒng)一的醫(yī)學(xué)語言系統(tǒng)(UMLS)
UMLS : UMLS一體化醫(yī)學(xué)語言系統(tǒng),針對(duì)生物醫(yī)學(xué)與健康領(lǐng)域的數(shù)據(jù)庫系統(tǒng)、本體知識(shí)庫。
主要包含三個(gè)工具:
- 一個(gè)巨大的實(shí)體數(shù)據(jù)庫
2.一個(gè)元數(shù)據(jù)詞典中所有概念的關(guān)系集合
3.一個(gè)為自然語言處理系統(tǒng)提供的通用英語詞典
限制:使用llm作為醫(yī)學(xué)診斷的唯一工具的一個(gè)明顯限制是,它完全依賴于來自患者的主觀輸入,它無法結(jié)合視覺信息進(jìn)行診斷。但是它可以作為一種邏輯推理工具幫助診斷,以幫助提高其他基于視覺的模型的準(zhǔn)確性。如ChatCAD。
Formatting and ICD-Coding 格式化和ICD編碼
迫切需要自動(dòng)化ICD標(biāo)記過程,因?yàn)樗鼤?huì)耗費(fèi)時(shí)間,而且通常是由醫(yī)生自己完成的。
ICD: 國際疾病分類(International Classification of Diseases,簡稱ICD):
- ICD 是由世界衛(wèi)生組織(WHO)制定和發(fā)布的一套全球通用的疾病和健康相關(guān)問題的分類系統(tǒng)。它的主要用途是為臨床診斷、流行病學(xué)研究和醫(yī)療統(tǒng)計(jì)提供一個(gè)標(biāo)準(zhǔn)的分類框架,以確保全球范圍內(nèi)對(duì)疾病和健康狀況的統(tǒng)一記錄和報(bào)告。
EHR: electronic health records 電子病歷
llm可以通過從臨床記錄中分離醫(yī)療術(shù)語并分配相應(yīng)的ICD代碼來幫助自動(dòng)化ICD編碼。
舉例: PLM-ICD
討論:解決任何LLM中潛在的偏見和幻覺都是至關(guān)重要的。在他們進(jìn)入患者的電子健康記錄(ehr)之前,建立一種機(jī)制來檢測和糾正這些錯(cuò)誤同樣至關(guān)重要。
Clinical Report Generation 臨床報(bào)告生成
臨床報(bào)告是指醫(yī)療保健工作者在每次患者就診后必須完成的標(biāo)準(zhǔn)化文件。
可以使用LLM作為一種總結(jié)工具來幫助生成臨床報(bào)告。給定一個(gè)診斷作為輸入,它可以使用其文本摘要功能,以給出一個(gè)清晰和簡潔的最終結(jié)論。
在這個(gè)用例中,llm并不直接幫助提高結(jié)論的準(zhǔn)確性。相反,它們只是作為一種方便的工具,讓醫(yī)生們?nèi)プ鲆恍┓ξ兜墓ぷ鳌?/p>
這種方式更多是一種輔助工具
llm生成臨床報(bào)告的另一種流行用途通常依賴于其他類型的基于視覺的模型或醫(yī)生的手動(dòng)輸入作為流程中的前置操作。
盡管用LLM來生成臨床報(bào)告或者總結(jié)工具已經(jīng)被證明有效,但是人們?nèi)匀粨?dān)心幻覺,以及一種傾向于用字面意思的觀點(diǎn)而不是人類醫(yī)生通常采取的基于假設(shè)的觀點(diǎn)來處理輸入。
Medical Education 醫(yī)學(xué)教育
醫(yī)學(xué)教育既可以包括專業(yè)人員教育,也可以包括普通公眾教育,這可以說同樣重要。
llm可以通過多種方式被納入醫(yī)學(xué)教育系統(tǒng),包括幫助學(xué)生準(zhǔn)備醫(yī)學(xué)考試,作為一個(gè)蘇格拉底式的導(dǎo)師,以及回答問題。
對(duì)于普通病人來說,醫(yī)療對(duì)話往往是復(fù)雜和難以理解的。
問題:在醫(yī)學(xué)教育中使用llm的一些潛在缺點(diǎn)是目前缺乏道德培訓(xùn)和可能來自訓(xùn)練數(shù)據(jù)集的偏見
Medical Robotics 醫(yī)療機(jī)器人
醫(yī)療機(jī)器人需要傳感器獲取輸入數(shù)據(jù),分析這些數(shù)據(jù),執(zhí)行路線規(guī)劃,以及執(zhí)行計(jì)劃的路線,以執(zhí)行所需的行動(dòng)。
舉例: Graph-based Robotic Instruction Decomposer
挑戰(zhàn):實(shí)施醫(yī)療機(jī)器人的一些挑戰(zhàn)與實(shí)施協(xié)作機(jī)器人(cobot)時(shí)的挑戰(zhàn)非常相似,因?yàn)檫@兩種情況都涉及機(jī)器人與人類一起操作,這需要信任機(jī)器人總是做正確的事情。
Medical Language Translation 醫(yī)學(xué)語言翻譯
一種是將醫(yī)學(xué)術(shù)語學(xué)從一種語言翻譯成另一種。
另一種是將專業(yè)醫(yī)學(xué)對(duì)話翻譯成非專業(yè)人員容易理解的表達(dá)方式。
利用LLM進(jìn)行翻譯的一個(gè)道德考慮是可能會(huì)在輸出中無意中插入具有歧視性措辭的潛在風(fēng)險(xiǎn)。由翻譯錯(cuò)誤引起的潛在錯(cuò)誤信息可能導(dǎo)致患者混淆,甚至在最糟糕的情況下,采取錯(cuò)誤的醫(yī)療建議并執(zhí)行,對(duì)自己造成傷害。
Mental Health Support 心理健康支持
心理健康支持包括診斷和治療。抑郁癥是一種常見的心理健康問題,通過多種治療,包括認(rèn)知行為療法、心理療法、心理動(dòng)力療法等。這些技術(shù)主要由醫(yī)患之間的對(duì)話主導(dǎo)。
由llm支持的聊天機(jī)器人可以大大增加對(duì)心理健康治療資源的可及性。心理咨詢及隨后的治療對(duì)許多人而言可能成本過高,而聊天機(jī)器人能夠充當(dāng)對(duì)話伙伴和陪伴者,將顯著降低對(duì)于在財(cái)務(wù)或身體方面受限的患者的準(zhǔn)入門檻。自我表露的程度對(duì)心理健康診斷和治療的效果有重大影響?;颊咴敢夥窒淼男畔⒃蕉啵\斷就越準(zhǔn)確,因此,治療計(jì)劃也就越準(zhǔn)確。
挑戰(zhàn):書面和口頭交流技巧的差異。這可能是llm為了進(jìn)一步模仿治療師而必須打破的一個(gè)障礙。
挑戰(zhàn)
幻覺,病人隱私,數(shù)據(jù)偏見,倫理,安全
幻覺
-
內(nèi)在幻覺:是指產(chǎn)生在邏輯上與事實(shí)信息相矛盾的輸出。如數(shù)學(xué)問題的錯(cuò)誤計(jì)算。
-
外在幻覺:當(dāng)所產(chǎn)生的輸出無法被驗(yàn)證時(shí),就會(huì)產(chǎn)生外部的幻覺。如LLM偽造某個(gè)引用。
解決方法:
- 訓(xùn)練時(shí)校正:調(diào)整模型的權(quán)重,從而降低產(chǎn)生幻覺輸出的概率。如factually consistent reinforcement learning和contrastive learning
- 推理時(shí)校正:推理中加入推理過程。如生成多個(gè)樣本SelfcheckGPT【3】
- 檢索增強(qiáng)校正:利用外掛知識(shí)庫。如利用事實(shí)文檔作為提示或者檢索鏈提示技術(shù)
缺少評(píng)估Benchmarks 和 指標(biāo)
目前的基準(zhǔn)測試,如MedQA(USMLE)和MedMCQA 提供了廣泛的問答任務(wù)覆蓋,但未能評(píng)估llm特定的重要指標(biāo),如可信度、忠誠度、幫助性和可解釋性。
HealthSearchQA提出了由普遍搜索的健康查詢組成的健康搜索QA,為評(píng)估LLM在醫(yī)療領(lǐng)域的能力提供了一個(gè)更人性化的基準(zhǔn)。
領(lǐng)域數(shù)據(jù)限制
與用于通用領(lǐng)域訓(xùn)練的數(shù)據(jù)相比,醫(yī)療領(lǐng)域的數(shù)據(jù)較少。醫(yī)學(xué)知識(shí)的領(lǐng)域很廣闊,而現(xiàn)有的數(shù)據(jù)集無法覆蓋整個(gè)領(lǐng)域。
這導(dǎo)致LLM在具有廣泛數(shù)據(jù)覆蓋的開放基準(zhǔn)上表現(xiàn)出色,但在實(shí)際任務(wù)如差異診斷和個(gè)性化治療規(guī)劃方面表現(xiàn)不足。
解決方法:
- 在較小的開放域數(shù)據(jù)集上微調(diào)
- 利用LLM生成高質(zhì)量的合成數(shù)據(jù)集(但是有研究表明可能會(huì)導(dǎo)致模型遺忘)
新知識(shí)
兩個(gè)問題:
- 讓LLM忘掉舊的過時(shí)的知識(shí)
- 讓LLM及時(shí)增加最新的知識(shí)
這些問題對(duì)在醫(yī)療領(lǐng)域使用llm構(gòu)成了重大障礙,因?yàn)樵卺t(yī)學(xué)領(lǐng)域中,準(zhǔn)確和及時(shí)地更新最新的醫(yī)學(xué)知識(shí)在實(shí)際實(shí)施中至關(guān)重要。
兩個(gè)方法:
- 模型調(diào)整:調(diào)整模型參數(shù)來修改模型的知識(shí)。這種方法不能推廣,并且不同模型效果有差異
- 檢索增強(qiáng)生成:模型推理時(shí)提供外部知識(shí)庫。如RAG方法【4】
行為對(duì)齊
雖然努力使llm與人類行為保持一致,但一般人類和醫(yī)學(xué)專業(yè)人員之間的行為差異對(duì)于在醫(yī)學(xué)領(lǐng)域采用llm仍然具有挑戰(zhàn)性。
例如,ChatGPT對(duì)醫(yī)療咨詢的回答并不像人類專家的回答那樣合理和專業(yè)。
方法:指令微調(diào),RLHF,提示微調(diào)
舉例:chain of hindsight【5】
倫理、法律和安全問題
通用領(lǐng)域本就有這些問題,在醫(yī)療領(lǐng)域這個(gè)問題更加重要。
比如可能提示注入會(huì)導(dǎo)致個(gè)人信息的泄露。
未來方向
引入新的Benchmarks
現(xiàn)有的一些benchmarks針對(duì)大模型回答醫(yī)學(xué)問題的準(zhǔn)確性進(jìn)行評(píng)估。
最近一些研究表達(dá)了對(duì)僅基于LLM完成為人類設(shè)計(jì)的標(biāo)準(zhǔn)考試的準(zhǔn)確性來評(píng)估LLM的擔(dān)憂。LLM能夠通過醫(yī)學(xué)資格考試不代表它有提供醫(yī)療建議的能力,由于該模型可能缺乏臨床醫(yī)生在許多其他重要臨床意義方面的專業(yè)知識(shí)。
鑒于這一限制,需要研究和建立新的LLM功能,例如從可信的醫(yī)學(xué)參考中獲取信息、了解醫(yī)學(xué)共識(shí)不斷發(fā)展的格局,并清晰地向用戶傳達(dá)不確定性。
跨學(xué)科合作
醫(yī)學(xué)專業(yè)人員最好參與到LLM的訓(xùn)練和應(yīng)用過程中
多模態(tài)LLM
可以結(jié)合其他模態(tài)的數(shù)據(jù)構(gòu)建LLM,如時(shí)間序列,視覺和聽覺數(shù)據(jù)
時(shí)間序列數(shù)據(jù)如心電圖和血壓計(jì)
在較不成熟的醫(yī)學(xué)領(lǐng)域的llm
可以關(guān)注于其他不那么傳統(tǒng)但同樣重要的醫(yī)學(xué)方向如康復(fù)療法和運(yùn)動(dòng)醫(yī)學(xué)。
參考文章
[1] [2001.08361] Scaling Laws for Neural Language Models (arxiv.org)
[2] [2203.15556] Training Compute-Optimal Large Language Models (arxiv.org)
[3] [2303.08896] SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (arxiv.org)
[4] [2005.11401] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (arxiv.org)文章來源:http://www.zghlxwxcb.cn/news/detail-771209.html
[5] [2302.02676] Chain of Hindsight Aligns Language Models with Feedback (arxiv.org)文章來源地址http://www.zghlxwxcb.cn/news/detail-771209.html
到了這里,關(guān)于【論文筆記】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!