国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型

這篇具有很好參考價(jià)值的文章主要介紹了哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

本文首發(fā)至微信公眾號(hào):CVHub,不得以任何形式轉(zhuǎn)載或售賣(mài),僅供學(xué)習(xí),違者必究!

哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型,大語(yǔ)言模型,llama,人工智能

Title: HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge

PDF: https://arxiv.org/pdf/2304.06975v1.pdf

Code: https://github.com/scir-hi/huatuo-llama-med-chinese

導(dǎo)讀

在生物醫(yī)學(xué)領(lǐng)域,LLM模型(如LLaMaChatGLM)因?yàn)槿狈σ欢ǖ尼t(yī)學(xué)專(zhuān)業(yè)知識(shí)語(yǔ)料而表現(xiàn)不佳。該項(xiàng)目通過(guò)醫(yī)學(xué)知識(shí)圖譜GPT3.5API構(gòu)建了中文醫(yī)學(xué)指令數(shù)據(jù)集,并對(duì)LLaMa模型進(jìn)行了指令微調(diào)得到了一個(gè)針對(duì)醫(yī)學(xué)領(lǐng)域的智能問(wèn)診模型HuaTuo,相比于未經(jīng)過(guò)醫(yī)學(xué)數(shù)據(jù)指令微調(diào)的原LLaMa而言,HuaTuo模型在智能問(wèn)診層面表現(xiàn)出色,可生成一些更為可靠的醫(yī)學(xué)知識(shí)回答;與此同時(shí),基于相同醫(yī)學(xué)數(shù)據(jù),該項(xiàng)目還訓(xùn)練了醫(yī)療版本的ChatGLM模型: ChatGLM-6B-Med,

除了華佗模型,該團(tuán)隊(duì)還即將發(fā)布扁鵲模型PienChueh(同為基于醫(yī)學(xué)數(shù)據(jù)訓(xùn)練的大模型),歡迎大家屆時(shí)使用體驗(yàn)。

引言

ChatGPT模型雖然表現(xiàn)出色,但畢竟不開(kāi)源,開(kāi)源社區(qū)已提供了許多平替方案,比如LLaMa等(7B,13B,30B,65B),其中7B具有70億參數(shù),訓(xùn)練成本最低,借助Colossal AIDeep Speed大模型訓(xùn)練框架,也可以很好的平民化訓(xùn)練并針對(duì)性的用于解決特定業(yè)務(wù)場(chǎng)景下的問(wèn)題。

不管是原始LLaMa,還是ChatGPT等其它大語(yǔ)言模型,它們?cè)卺t(yī)療領(lǐng)域的應(yīng)用仍然存在一些問(wèn)題。比如筆者前段時(shí)間問(wèn)原始LLaMa,給它輸入一段病情描述,讓它輸出病情診斷信息,它會(huì)給出一些非常簡(jiǎn)短且常規(guī)的回答,完全沒(méi)回答到點(diǎn)子上;雖然在這一層面ChatGPT做的更好,回答的也更加詳細(xì),但更多的也是一些偏向于科普式的回答,并沒(méi)有非常驚艷的效果。而經(jīng)過(guò)專(zhuān)門(mén)醫(yī)療數(shù)據(jù)訓(xùn)練的Glass AI(鏈接:https://glass.health/ai)模型在智能診斷上表現(xiàn)極其出色,感興趣的讀者可自行注冊(cè)體驗(yàn)(強(qiáng)烈推薦)。但由于Glass AI是一款已商業(yè)化的AI智能診斷模型,也并未開(kāi)源。

由于醫(yī)療領(lǐng)域?qū)I(yè)知識(shí)太多,而LLMs的一般領(lǐng)域知識(shí)往往無(wú)法滿足這種專(zhuān)業(yè)化需求,如果直接用于智能診斷,極有可能導(dǎo)致診斷精度、藥品推薦和醫(yī)療建議等方面的不準(zhǔn)確性,甚至危及患者的生命。所以,將專(zhuān)業(yè)的醫(yī)學(xué)領(lǐng)域知識(shí),診斷案例數(shù)據(jù)輸入到大模型進(jìn)行專(zhuān)業(yè)化學(xué)習(xí)非常有必要。

目前,已經(jīng)有一些方法嘗試解決這個(gè)問(wèn)題,但這些方法主要依賴于從人工交流中檢索醫(yī)學(xué)信息,容易出現(xiàn)人為錯(cuò)誤。此外,LLMs通常只在英語(yǔ)語(yǔ)境下進(jìn)行訓(xùn)練,這限制了它們?cè)谄渌Z(yǔ)言環(huán)境下的理解和響應(yīng)能力,例如中文,因此它們?cè)谥袊?guó)語(yǔ)境中的應(yīng)用受到極大限制。

現(xiàn)有的方法主要采用ChatGPT進(jìn)行數(shù)據(jù)輔助,將ChatGPT某一領(lǐng)域的知識(shí)有效蒸餾到較小的模型:比如Chatdoctor代表了將LLMs在生物醫(yī)學(xué)領(lǐng)域的第一次嘗試,通過(guò)調(diào)用ChatGPT API來(lái)生成一些醫(yī)學(xué)語(yǔ)料數(shù)據(jù)并疊加一部分真實(shí)場(chǎng)景醫(yī)患數(shù)據(jù),來(lái)微調(diào)LLaMa;為了解決中文語(yǔ)境問(wèn)題,DoctorGLM利用ChatGLM-6B作為基礎(chǔ)模型,并用ChatDoctor數(shù)據(jù)集的中文翻譯通過(guò)ChatGPT獲取進(jìn)行微調(diào)。這些模型出來(lái)的效果只能說(shuō)還行,但距離真實(shí)落地還很遠(yuǎn)。畢竟通過(guò)未經(jīng)過(guò)專(zhuān)門(mén)醫(yī)學(xué)語(yǔ)料訓(xùn)練的ChatGPT獲取的訓(xùn)練數(shù)據(jù)也是非常general的回答,對(duì)模型得不到質(zhì)的提升。

本項(xiàng)目介紹了一種針對(duì)生物醫(yī)學(xué)領(lǐng)域、專(zhuān)注于中文語(yǔ)言的LLM模型—HuaTuo(華駝)。為了保證模型在生物醫(yī)學(xué)領(lǐng)域回答問(wèn)題的準(zhǔn)確性,研究人員通過(guò)從中文醫(yī)學(xué)知識(shí)圖譜CMeKG中提取相關(guān)的醫(yī)學(xué)知識(shí),生成多樣的指令數(shù)據(jù),以確保模型回答問(wèn)題的事實(shí)正確性,并收集了超過(guò)8000條指令數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。該模型基于開(kāi)源的LLaMa-7B基礎(chǔ)模型,整合了CMeKG的結(jié)構(gòu)化和非結(jié)構(gòu)化醫(yī)學(xué)知識(shí),并利用基于知識(shí)的指令數(shù)據(jù)進(jìn)行微調(diào),使得模型具有較為豐富的醫(yī)學(xué)領(lǐng)域?qū)I(yè)知識(shí),從而為智能診斷作出較為專(zhuān)業(yè)的回答。

HuaTuo Model

Base Model

LLaMA作為一個(gè)開(kāi)源模型,具有7B到65B各個(gè)量級(jí)的模型;為了更快速高效的訓(xùn)練,作者采用LLaMA-7B作為HuaTuo的基礎(chǔ)模型

Medical Knowledge

醫(yī)學(xué)知識(shí)的種類(lèi)包括:結(jié)構(gòu)化醫(yī)學(xué)知識(shí)和非結(jié)構(gòu)化醫(yī)學(xué)知識(shí)。結(jié)構(gòu)化醫(yī)學(xué)知識(shí)指的是醫(yī)學(xué)知識(shí)圖譜等形式化的知識(shí),而非結(jié)構(gòu)化醫(yī)學(xué)知識(shí)則是如醫(yī)學(xué)指南等的非形式化的知識(shí)。作者在這里使用了一個(gè)名為CMeKG的中文醫(yī)學(xué)知識(shí)圖譜,其中提供了關(guān)于疾病、藥物、癥狀等的檢索醫(yī)學(xué)知識(shí),目的是為了讓大模型學(xué)習(xí)一些相關(guān)的專(zhuān)業(yè)醫(yī)學(xué)知識(shí)。下表1展示了CMeKG知識(shí)庫(kù)中的幾個(gè)醫(yī)學(xué)知識(shí)樣例。

哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型,大語(yǔ)言模型,llama,人工智能

Knowledge-based Instruction Data

instruct-tuning是一種有助于大模型在zero-shot場(chǎng)景下表現(xiàn)出令人滿意性能的tuning微調(diào)技術(shù),但這需要有足夠豐富的instruct以指導(dǎo)大模型學(xué)會(huì)理解instruct命令,并作出反饋,當(dāng)然我們也可以根據(jù)上述醫(yī)學(xué)知識(shí)可生成一系列instruct-input-output模式的數(shù)據(jù)如下表2所示。然而,對(duì)于一種醫(yī)學(xué)對(duì)話問(wèn)診的大語(yǔ)言模型,輸入通常是以問(wèn)題的形式進(jìn)行陳述,所以在這里作者只保留input-output模式的數(shù)據(jù)來(lái)訓(xùn)練HuaTuo模型。

哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型,大語(yǔ)言模型,llama,人工智能

在一般領(lǐng)域,生成的指令需要具備足夠的多樣性,以應(yīng)對(duì)未知任務(wù)zero-shot;而在醫(yī)學(xué)領(lǐng)域,則更加關(guān)注大型語(yǔ)言模型響應(yīng)中的事實(shí)是否正確。因此,在本文中,研究者首先從知識(shí)圖譜中隨機(jī)選擇一些醫(yī)學(xué)知識(shí)實(shí)例,并利用OpenAI API 基于這些特定的知識(shí)生成一系列問(wèn)診對(duì)話的訓(xùn)練樣本8,000條(數(shù)據(jù)見(jiàn)項(xiàng)目代碼 Huatuo-Llama-Med-Chinese/data/)。如下表3所示

哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型,大語(yǔ)言模型,llama,人工智能

實(shí)驗(yàn)設(shè)置

Baselines

為了對(duì)比HuaTuo和其它基礎(chǔ)模型的性能,作者進(jìn)行了與三個(gè)基礎(chǔ)模型的比較分析:

  1. LLaMA 作為HuaTuo的基礎(chǔ)模型,作者選擇了原生LLaMA-7B作為基礎(chǔ)模型比較對(duì)象。
  2. AlpacaLLaMA的一種instruct-tuning版本模型,擁有超過(guò)80,000個(gè)在通用領(lǐng)域中生成的訓(xùn)練樣本。
  3. ChatGLM 是專(zhuān)門(mén)為中文聊天場(chǎng)景設(shè)計(jì)的大語(yǔ)言模型,在本文的分析中,作者將HuaTuo的性能與ChatGLM-6B進(jìn)行了比較。

Metrics

自然語(yǔ)言生成領(lǐng)域中常用的評(píng)估指標(biāo)是BleuRouge,作者在醫(yī)療問(wèn)答任務(wù)中引入了新評(píng)估指標(biāo)SUS,分別代表:安全性、可用性流暢性。其中,安全性維度評(píng)估生成的響應(yīng)是否存在誤導(dǎo)用戶、對(duì)用戶健康構(gòu)成危險(xiǎn)的潛在因素,例如錯(cuò)誤的藥物建議;可用性維度評(píng)估生成的響應(yīng)是否反映了醫(yī)療專(zhuān)業(yè)知識(shí);流暢性維度則評(píng)估生成模型作為語(yǔ)言模型的能力。

實(shí)驗(yàn)結(jié)果

在這項(xiàng)研究中,作者構(gòu)建了一個(gè)中文對(duì)話場(chǎng)景的醫(yī)療問(wèn)診測(cè)試集,并將HuaTuo與其他三個(gè)基準(zhǔn)模型進(jìn)行了比較。為了評(píng)估模型性能,本項(xiàng)目招募了五名具有醫(yī)學(xué)背景的專(zhuān)業(yè)醫(yī)師,在SUS三個(gè)維度上評(píng)估模型的安全性、可用性和流暢性。SUS刻度從1(不可接受)到3(好),其中2表示可接受的響應(yīng)。平均SUS得分如下表4所示。盡管LLaMA獲得了最高的安全得分,但其響應(yīng)常常缺乏信息且重述問(wèn)題,導(dǎo)致可用性得分低。另一方面,HuaTuo模型顯著提高了知識(shí)可用性,同時(shí)沒(méi)有太多地犧牲安全性。

哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型,大語(yǔ)言模型,llama,人工智能文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-541902.html

到了這里,關(guān)于哈工大團(tuán)隊(duì)開(kāi)源醫(yī)學(xué)智能問(wèn)診大模型 | 華佗: 基于中文醫(yī)學(xué)知識(shí)的LLaMa指令微調(diào)模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 哈工大CSAPP程序人生大作業(yè)

    正在上傳…重新上傳取消 計(jì)算機(jī)系統(tǒng) 大作業(yè) 題 ????目 ? 程序人生 -Hello’s P2P? 專(zhuān)?????? 業(yè) ?? 計(jì)算機(jī)科學(xué)與技術(shù) ?????? 學(xué) ?? 號(hào) ??2021110991???????????? 班 ?? 級(jí) ?????2103101???????????? 學(xué)?????? 生 ??????? 安心 ????????? 指 導(dǎo) 教 師 ???

    2023年04月24日
    瀏覽(26)
  • 哈工大操作系統(tǒng)實(shí)驗(yàn)三(整理自用)

    哈工大操作系統(tǒng)實(shí)驗(yàn)三(整理自用)

    基于模板? process.c ?編寫(xiě)多進(jìn)程的樣本程序,實(shí)現(xiàn)如下功能: + 所有子進(jìn)程都并行運(yùn)行,每個(gè)子進(jìn)程的實(shí)際運(yùn)行時(shí)間一般不超過(guò) 30 秒; + 父進(jìn)程向標(biāo)準(zhǔn)輸出打印所有子進(jìn)程的 id,并在所有子進(jìn)程都退出后才退出; 在? Linux0.11 ?上實(shí)現(xiàn)進(jìn)程運(yùn)行軌跡的跟蹤。 + 基本任務(wù)是在內(nèi)

    2024年02月11日
    瀏覽(29)
  • 哈工大 2022春 模式識(shí)別與深度學(xué)習(xí) 期末試題

    雖然此課程未開(kāi)卷考試,但往年題還是很有參考價(jià)值的,就像今年的題和2021年就有很多到相似的題。但考的知識(shí)點(diǎn)肯定比題多,考試前還是需要把PPT都過(guò)一遍的。 已知條件概率和先驗(yàn)概率,求基于最小錯(cuò)誤率的貝葉斯分類(lèi)器 如果你有一個(gè)朋友在外地…(HMM PPT上的原題改很少

    2024年02月09日
    瀏覽(22)
  • 哈工大csapp-LAB3程序優(yōu)化

    實(shí)驗(yàn)報(bào)告 實(shí) 驗(yàn)(三) 題???? 目 ????? 優(yōu)化 ??????? ??????? 專(zhuān)?????? 業(yè) ??? 人工智能(未來(lái)技術(shù)) ??? 學(xué) ?? 號(hào) ???7203610716????????????? 班 ?? 級(jí) ???20WJ102??????????????? 學(xué)?????? 生 ??? 孫銘蔚 ??????????? 指 導(dǎo) 教 師 ??? 劉宏偉

    2023年04月24日
    瀏覽(21)
  • 哈工大 計(jì)算機(jī)系統(tǒng) 二進(jìn)制炸彈實(shí)驗(yàn)報(bào)告

    哈工大 計(jì)算機(jī)系統(tǒng) 二進(jìn)制炸彈實(shí)驗(yàn)報(bào)告

    實(shí)驗(yàn)報(bào)告 實(shí) 驗(yàn)(三) 題 ????目 ?Binary Bomb???? ?? ? 二進(jìn)制炸彈 ? 專(zhuān)?????? 業(yè) ???? 計(jì)算機(jī)學(xué)院 ???????? 學(xué) ?? 號(hào) ? ? ? ? ? ? ? 班 ?? 級(jí) ? ? ? ? ? ? ?? 學(xué)?????? 生 ?????? ? ? ? 指 導(dǎo) 教 師 ??????? ? ? ?? 實(shí) 驗(yàn) 地 點(diǎn) ? ? ?? 實(shí) 驗(yàn) 日 期 ????

    2023年04月15日
    瀏覽(32)
  • 2023哈工大軟件工程考研 | 395+251 | 個(gè)人經(jīng)驗(yàn)分享

    2023哈工大軟件工程考研 | 395+251 | 個(gè)人經(jīng)驗(yàn)分享

    初試成績(jī) :395 政治 英語(yǔ)一 數(shù)學(xué)一 專(zhuān)業(yè)課 總分 71 76 130 118 395 復(fù)試成績(jī) :251(綜合測(cè)試118 + 面試133) 排名 :軟專(zhuān)1/12,本部7/83,一校三區(qū)33/262 一切都拉下帷幕了,從去年二月到今年三月,已經(jīng)一年多了;中間有大起大落,有艱難曲折,但最終還算有個(gè)不錯(cuò)的結(jié)果。 沒(méi)有感

    2023年04月09日
    瀏覽(33)
  • 哈工大計(jì)算機(jī)網(wǎng)絡(luò)傳輸層協(xié)議詳解之:TCP協(xié)議

    哈工大計(jì)算機(jī)網(wǎng)絡(luò)傳輸層協(xié)議詳解之:TCP協(xié)議

    哈工大計(jì)算機(jī)網(wǎng)絡(luò)課程傳輸層協(xié)議詳解之:可靠數(shù)據(jù)傳輸?shù)幕驹?哈工大計(jì)算機(jī)網(wǎng)絡(luò)課程傳輸層協(xié)議詳解之:流水線機(jī)制與滑動(dòng)窗口協(xié)議 哈工大計(jì)算機(jī)網(wǎng)絡(luò)課程傳輸層協(xié)議詳解之:擁塞控制原理剖析 點(diǎn)對(duì)點(diǎn)通信 一個(gè)發(fā)送方、一個(gè)接收方 可靠的、按序的字節(jié)流 流水線機(jī)制

    2024年02月10日
    瀏覽(19)
  • 哈工大2022秋自然語(yǔ)言處理NLP期末考試回憶版試題

    剛考完NLP,趁著還沒(méi)忘記,寫(xiě)一個(gè)回憶版試題。 題型及得分:選擇題20道,每道1分;填空題10道,每道1分;判斷題15道,每道1分;簡(jiǎn)答題4道,每道5分;推理題2道,每道10分;綜合題1道,15分。合計(jì)100分。 選擇題主要考察知識(shí)點(diǎn)的記憶,考了“編輯距離”,“詞向量one-hot表

    2024年02月09日
    瀏覽(21)
  • [圖論]哈爾濱工業(yè)大學(xué)(哈工大 HIT)學(xué)習(xí)筆記32-39

    [圖論]哈爾濱工業(yè)大學(xué)(哈工大 HIT)學(xué)習(xí)筆記32-39

    視頻來(lái)源:6.1.1 樹(shù)的定義_嗶哩嗶哩_bilibili 目錄 1. 樹(shù)的定義 2. 樹(shù)的性質(zhì) 3. 極小連通圖 4. 樹(shù)的中心 5. 生成樹(shù) 6. 最小生成樹(shù) 7. 割點(diǎn) 8. 割點(diǎn)的性質(zhì) (1)定義:一個(gè)連通的無(wú)圈的圖稱為樹(shù) (2)平凡樹(shù):只有一個(gè)頂點(diǎn)的樹(shù) (3)推論1:非平凡樹(shù)至少有兩個(gè)葉子( ? ) (4)推論

    2024年02月08日
    瀏覽(21)
  • [圖論]哈爾濱工業(yè)大學(xué)(哈工大 HIT)學(xué)習(xí)筆記23-31

    [圖論]哈爾濱工業(yè)大學(xué)(哈工大 HIT)學(xué)習(xí)筆記23-31

    視頻來(lái)源:4.1.1 背景_嗶哩嗶哩_bilibili 目錄 1. 哈密頓圖 1.1. 背景 1.2. 哈氏圖 2. 鄰接矩陣/鄰接表 3. 關(guān)聯(lián)矩陣 3.1. 定義 4. 帶權(quán)圖 (1)以地球?yàn)榻#瑥囊粋€(gè)大城市開(kāi)始遍歷其他大城市并且返回,每個(gè)頂點(diǎn)只能被通過(guò)一次 (1)定義:如果G中有生成圈,則稱G為哈氏圖 (2)和歐

    2024年02月22日
    瀏覽(23)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包