本文首發(fā)至微信公眾號(hào):CVHub,不得以任何形式轉(zhuǎn)載或售賣(mài),僅供學(xué)習(xí),違者必究!
Title: HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge
PDF: https://arxiv.org/pdf/2304.06975v1.pdf
Code: https://github.com/scir-hi/huatuo-llama-med-chinese
導(dǎo)讀
在生物醫(yī)學(xué)領(lǐng)域,LLM
模型(如LLaMa
,ChatGLM
)因?yàn)槿狈σ欢ǖ尼t(yī)學(xué)專(zhuān)業(yè)知識(shí)語(yǔ)料而表現(xiàn)不佳。該項(xiàng)目通過(guò)醫(yī)學(xué)知識(shí)圖譜和GPT3.5
API構(gòu)建了中文醫(yī)學(xué)指令數(shù)據(jù)集,并對(duì)LLaMa
模型進(jìn)行了指令微調(diào)得到了一個(gè)針對(duì)醫(yī)學(xué)領(lǐng)域的智能問(wèn)診模型HuaTuo
,相比于未經(jīng)過(guò)醫(yī)學(xué)數(shù)據(jù)指令微調(diào)的原LLaMa
而言,HuaTuo
模型在智能問(wèn)診層面表現(xiàn)出色,可生成一些更為可靠的醫(yī)學(xué)知識(shí)回答;與此同時(shí),基于相同醫(yī)學(xué)數(shù)據(jù),該項(xiàng)目還訓(xùn)練了醫(yī)療版本的ChatGLM
模型: ChatGLM-6B-Med
,
除了華佗模型,該團(tuán)隊(duì)還即將發(fā)布扁鵲模型PienChueh
(同為基于醫(yī)學(xué)數(shù)據(jù)訓(xùn)練的大模型),歡迎大家屆時(shí)使用體驗(yàn)。
引言
ChatGPT
模型雖然表現(xiàn)出色,但畢竟不開(kāi)源,開(kāi)源社區(qū)已提供了許多平替方案,比如LLaMa
等(7B,13B,30B,65B),其中7B具有70億參數(shù),訓(xùn)練成本最低,借助Colossal AI
和Deep Speed
大模型訓(xùn)練框架,也可以很好的平民化訓(xùn)練并針對(duì)性的用于解決特定業(yè)務(wù)場(chǎng)景下的問(wèn)題。
不管是原始LLaMa
,還是ChatGPT
等其它大語(yǔ)言模型,它們?cè)卺t(yī)療領(lǐng)域的應(yīng)用仍然存在一些問(wèn)題。比如筆者前段時(shí)間問(wèn)原始LLaMa
,給它輸入一段病情描述,讓它輸出病情診斷信息,它會(huì)給出一些非常簡(jiǎn)短且常規(guī)的回答,完全沒(méi)回答到點(diǎn)子上;雖然在這一層面ChatGPT
做的更好,回答的也更加詳細(xì),但更多的也是一些偏向于科普式的回答,并沒(méi)有非常驚艷的效果。而經(jīng)過(guò)專(zhuān)門(mén)醫(yī)療數(shù)據(jù)訓(xùn)練的Glass AI
(鏈接:https://glass.health/ai)模型在智能診斷上表現(xiàn)極其出色,感興趣的讀者可自行注冊(cè)體驗(yàn)(強(qiáng)烈推薦)。但由于Glass AI
是一款已商業(yè)化的AI智能診斷模型,也并未開(kāi)源。
由于醫(yī)療領(lǐng)域?qū)I(yè)知識(shí)太多,而LLMs
的一般領(lǐng)域知識(shí)往往無(wú)法滿足這種專(zhuān)業(yè)化需求,如果直接用于智能診斷,極有可能導(dǎo)致診斷精度、藥品推薦和醫(yī)療建議等方面的不準(zhǔn)確性,甚至危及患者的生命。所以,將專(zhuān)業(yè)的醫(yī)學(xué)領(lǐng)域知識(shí),診斷案例數(shù)據(jù)輸入到大模型進(jìn)行專(zhuān)業(yè)化學(xué)習(xí)非常有必要。
目前,已經(jīng)有一些方法嘗試解決這個(gè)問(wèn)題,但這些方法主要依賴于從人工交流中檢索醫(yī)學(xué)信息,容易出現(xiàn)人為錯(cuò)誤。此外,LLMs
通常只在英語(yǔ)語(yǔ)境下進(jìn)行訓(xùn)練,這限制了它們?cè)谄渌Z(yǔ)言環(huán)境下的理解和響應(yīng)能力,例如中文,因此它們?cè)谥袊?guó)語(yǔ)境中的應(yīng)用受到極大限制。
現(xiàn)有的方法主要采用ChatGPT
進(jìn)行數(shù)據(jù)輔助,將ChatGPT
某一領(lǐng)域的知識(shí)有效蒸餾到較小的模型:比如Chatdoctor
代表了將LLMs
在生物醫(yī)學(xué)領(lǐng)域的第一次嘗試,通過(guò)調(diào)用ChatGPT
API來(lái)生成一些醫(yī)學(xué)語(yǔ)料數(shù)據(jù)并疊加一部分真實(shí)場(chǎng)景醫(yī)患數(shù)據(jù),來(lái)微調(diào)LLaMa
;為了解決中文語(yǔ)境問(wèn)題,DoctorGLM
利用ChatGLM-6B
作為基礎(chǔ)模型,并用ChatDoctor
數(shù)據(jù)集的中文翻譯通過(guò)ChatGPT
獲取進(jìn)行微調(diào)。這些模型出來(lái)的效果只能說(shuō)還行,但距離真實(shí)落地還很遠(yuǎn)。畢竟通過(guò)未經(jīng)過(guò)專(zhuān)門(mén)醫(yī)學(xué)語(yǔ)料訓(xùn)練的ChatGPT
獲取的訓(xùn)練數(shù)據(jù)也是非常general的回答,對(duì)模型得不到質(zhì)的提升。
本項(xiàng)目介紹了一種針對(duì)生物醫(yī)學(xué)領(lǐng)域、專(zhuān)注于中文語(yǔ)言的LLM模型—HuaTuo(華駝)。為了保證模型在生物醫(yī)學(xué)領(lǐng)域回答問(wèn)題的準(zhǔn)確性,研究人員通過(guò)從中文醫(yī)學(xué)知識(shí)圖譜CMeKG
中提取相關(guān)的醫(yī)學(xué)知識(shí),生成多樣的指令數(shù)據(jù),以確保模型回答問(wèn)題的事實(shí)正確性,并收集了超過(guò)8000條指令數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。該模型基于開(kāi)源的LLaMa-7B
基礎(chǔ)模型,整合了CMeKG
的結(jié)構(gòu)化和非結(jié)構(gòu)化醫(yī)學(xué)知識(shí),并利用基于知識(shí)的指令數(shù)據(jù)進(jìn)行微調(diào),使得模型具有較為豐富的醫(yī)學(xué)領(lǐng)域?qū)I(yè)知識(shí),從而為智能診斷作出較為專(zhuān)業(yè)的回答。
HuaTuo Model
Base Model
LLaMA
作為一個(gè)開(kāi)源模型,具有7B到65B各個(gè)量級(jí)的模型;為了更快速高效的訓(xùn)練,作者采用LLaMA-7B
作為HuaTuo
的基礎(chǔ)模型
Medical Knowledge
醫(yī)學(xué)知識(shí)的種類(lèi)包括:結(jié)構(gòu)化醫(yī)學(xué)知識(shí)和非結(jié)構(gòu)化醫(yī)學(xué)知識(shí)。結(jié)構(gòu)化醫(yī)學(xué)知識(shí)指的是醫(yī)學(xué)知識(shí)圖譜等形式化的知識(shí),而非結(jié)構(gòu)化醫(yī)學(xué)知識(shí)則是如醫(yī)學(xué)指南等的非形式化的知識(shí)。作者在這里使用了一個(gè)名為CMeKG
的中文醫(yī)學(xué)知識(shí)圖譜,其中提供了關(guān)于疾病、藥物、癥狀等的檢索醫(yī)學(xué)知識(shí),目的是為了讓大模型學(xué)習(xí)一些相關(guān)的專(zhuān)業(yè)醫(yī)學(xué)知識(shí)。下表1展示了CMeKG
知識(shí)庫(kù)中的幾個(gè)醫(yī)學(xué)知識(shí)樣例。
Knowledge-based Instruction Data
instruct-tuning
是一種有助于大模型在zero-shot
場(chǎng)景下表現(xiàn)出令人滿意性能的tuning
微調(diào)技術(shù),但這需要有足夠豐富的instruct
以指導(dǎo)大模型學(xué)會(huì)理解instruct
命令,并作出反饋,當(dāng)然我們也可以根據(jù)上述醫(yī)學(xué)知識(shí)可生成一系列instruct-input-output
模式的數(shù)據(jù)如下表2所示。然而,對(duì)于一種醫(yī)學(xué)對(duì)話問(wèn)診的大語(yǔ)言模型,輸入通常是以問(wèn)題的形式進(jìn)行陳述,所以在這里作者只保留input-output
模式的數(shù)據(jù)來(lái)訓(xùn)練HuaTuo
模型。
在一般領(lǐng)域,生成的指令需要具備足夠的多樣性,以應(yīng)對(duì)未知任務(wù)zero-shot
;而在醫(yī)學(xué)領(lǐng)域,則更加關(guān)注大型語(yǔ)言模型響應(yīng)中的事實(shí)是否正確。因此,在本文中,研究者首先從知識(shí)圖譜中隨機(jī)選擇一些醫(yī)學(xué)知識(shí)實(shí)例,并利用OpenAI
API 基于這些特定的知識(shí)生成一系列問(wèn)診對(duì)話的訓(xùn)練樣本8,000條(數(shù)據(jù)見(jiàn)項(xiàng)目代碼 Huatuo-Llama-Med-Chinese/data/)。如下表3所示
實(shí)驗(yàn)設(shè)置
Baselines
為了對(duì)比HuaTuo
和其它基礎(chǔ)模型的性能,作者進(jìn)行了與三個(gè)基礎(chǔ)模型的比較分析:
-
LLaMA
作為HuaTuo
的基礎(chǔ)模型,作者選擇了原生LLaMA-7B
作為基礎(chǔ)模型比較對(duì)象。 -
Alpaca
是LLaMA
的一種instruct-tuning
版本模型,擁有超過(guò)80,000個(gè)在通用領(lǐng)域中生成的訓(xùn)練樣本。 -
ChatGLM
是專(zhuān)門(mén)為中文聊天場(chǎng)景設(shè)計(jì)的大語(yǔ)言模型,在本文的分析中,作者將HuaTuo
的性能與ChatGLM-6B
進(jìn)行了比較。
Metrics
自然語(yǔ)言生成領(lǐng)域中常用的評(píng)估指標(biāo)是Bleu
和Rouge
,作者在醫(yī)療問(wèn)答任務(wù)中引入了新評(píng)估指標(biāo)SUS
,分別代表:安全性、可用性和流暢性。其中,安全性維度評(píng)估生成的響應(yīng)是否存在誤導(dǎo)用戶、對(duì)用戶健康構(gòu)成危險(xiǎn)的潛在因素,例如錯(cuò)誤的藥物建議;可用性維度評(píng)估生成的響應(yīng)是否反映了醫(yī)療專(zhuān)業(yè)知識(shí);流暢性維度則評(píng)估生成模型作為語(yǔ)言模型的能力。
實(shí)驗(yàn)結(jié)果
在這項(xiàng)研究中,作者構(gòu)建了一個(gè)中文對(duì)話場(chǎng)景的醫(yī)療問(wèn)診測(cè)試集,并將HuaTuo
與其他三個(gè)基準(zhǔn)模型進(jìn)行了比較。為了評(píng)估模型性能,本項(xiàng)目招募了五名具有醫(yī)學(xué)背景的專(zhuān)業(yè)醫(yī)師,在SUS
三個(gè)維度上評(píng)估模型的安全性、可用性和流暢性。SUS
刻度從1(不可接受)到3(好),其中2表示可接受的響應(yīng)。平均SUS
得分如下表4所示。盡管LLaMA
獲得了最高的安全得分,但其響應(yīng)常常缺乏信息且重述問(wèn)題,導(dǎo)致可用性得分低。另一方面,HuaTuo
模型顯著提高了知識(shí)可用性,同時(shí)沒(méi)有太多地犧牲安全性。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-541902.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-541902.html
到了這里,關(guān)于哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!