轉(zhuǎn)載請注明出處:https://www.cnblogs.com/zhiyong-ITNote
近來,工作偏向于心理醫(yī)療領(lǐng)域方面的大模型,僅從領(lǐng)域大模型的落地,聊聊個人的一些思考。
硬件
準備好花錢買GPU。
領(lǐng)域大模型
業(yè)務(wù)場景的思考
首先需要審視斟酌業(yè)務(wù)領(lǐng)域的特殊性與可行性,我們要做的是心理領(lǐng)域,而心理領(lǐng)域傾向于醫(yī)患對話,即詢問鏈的場景;不僅僅是一問一回答的角度,而作為智能體(AI模型/醫(yī)生)還需要 對患者的回答進行 引導(dǎo)/打分,且作為問詢對話場景,對話上下文的長度必然不會少,這也是需要考慮的問題。其次,治療時的患者,會處于不同的治療階段,就需要做不同的治療,治療的側(cè)重點就會不一樣。
總之,在實際開展的前期,對業(yè)務(wù)領(lǐng)域的場景與方向需要與產(chǎn)品不斷的打磨研究,分析出產(chǎn)品的方向場景及特殊性。
開源模型
摸著石頭過河——目前醫(yī)療、金融等領(lǐng)域已經(jīng)有很多的開源模型,作為技術(shù)儲備與預(yù)研,極其需要對已有的開源模型做一些調(diào)研。如下是我個人覺得不錯且對于我們的場景可以借鑒的醫(yī)療模型:
- 扁鵲 BianQue
- 靈心 SoulChat
- CareGPT
- MedicalGPT
對于開源模型的研究,不僅僅是跑demo,沒有什么用處,畢竟又不能直接拿過來落地——現(xiàn)在很多的模型都只是丟個訓(xùn)練完的模型文件上來,最關(guān)鍵的訓(xùn)練數(shù)據(jù)、業(yè)務(wù)流程、訓(xùn)練流程、調(diào)試代碼并沒有放上來;這類開源庫參考意義不大。
如下幾點是我比較看重的:
- 訓(xùn)練數(shù)據(jù)及格式
- 微調(diào)框架(官方、開源)
- 業(yè)務(wù)流程
- 訓(xùn)練流程及代碼
- 訓(xùn)練方式
- 是否支持微調(diào)
業(yè)務(wù)流程
對比上述的模型,靈心模型的場景及應(yīng)用和我們的業(yè)務(wù)極度貼近,但官方只是給了模型文件部署,并沒有提供相關(guān)的訓(xùn)練數(shù)據(jù)也不支持微調(diào)。所幸,其業(yè)務(wù)流程還是很詳細,給我們的業(yè)務(wù)落地也提供了參考。
訓(xùn)練流程及代碼
而CareGPT與MedicalGPT兩個模型給我提供了詳細的訓(xùn)練流程參考:
- 第一階段:PT(Continue PreTraining)增量預(yù)訓(xùn)練,在海量領(lǐng)域文檔數(shù)據(jù)上二次預(yù)訓(xùn)練AI模型,以適應(yīng)領(lǐng)域數(shù)據(jù)分布。
- 第二階段:SFT(Supervised Fine-tuning)有監(jiān)督微調(diào),構(gòu)造指令微調(diào)數(shù)據(jù)集,在預(yù)訓(xùn)練模型基礎(chǔ)上做指令精調(diào),以對齊指令意圖,并注入領(lǐng)域知識。
- 第三階段
- RLHF(Reinforcement Learning from Human Feedback)基于人類反饋對語言模型進行強化學(xué)習(xí),分為兩步:
- RM(Reward Model)獎勵模型建模,構(gòu)造人類偏好排序數(shù)據(jù)集,訓(xùn)練獎勵模型,用來建模人類偏好,主要是"HHH"原則,具體是"helpful, honest, harmless"。
- RL(Reinforcement Learning)強化學(xué)習(xí),用獎勵模型來訓(xùn)練SFT模型,生成模型使用獎勵或懲罰來更新其策略,以便生成更高質(zhì)量、更符合人類偏好的文本。
- DPO(Direct Preference Optimization) 直接偏好優(yōu)化方法,DPO通過直接優(yōu)化語言模型來實現(xiàn)對其行為的精確控制,而無需使用復(fù)雜的強化學(xué)習(xí),也可以有效學(xué)習(xí)到人類偏好,DPO相較于RLHF更容易實現(xiàn)且易于訓(xùn)練,效果更好。
- RLHF(Reinforcement Learning from Human Feedback)基于人類反饋對語言模型進行強化學(xué)習(xí),分為兩步:
針對如上階段,開源模型有對應(yīng)階段的腳本已實現(xiàn),最好是可以一鍵執(zhí)行。
訓(xùn)練數(shù)據(jù)及格式
數(shù)據(jù)的質(zhì)量與格式,在這些開源模型都是有的;而且對我們的業(yè)務(wù)來說,多輪對話是很常見的,因此怎么樣讓數(shù)據(jù)更緊湊更小,但不損壞數(shù)據(jù)質(zhì)量,是我們需要審視的。
扁鵲與靈心 領(lǐng)域模型的數(shù)據(jù)格式是我蠻滿意的,而且極度滿足我們的業(yè)務(wù)場景:
input: "病人:六歲寶寶拉大便都是一個禮拜或者10天才一次正常嗎,要去醫(yī)院檢查什么項目\n醫(yī)生:您好\n病人:六歲寶寶拉大便都是一個禮拜或者10天才一次正常嗎,要去醫(yī)院檢查什么項目\n醫(yī)生:寶寶之前大便什么樣呢?多久一次呢\n病人:一般都是一個禮拜,最近這幾個月都是10多天\n醫(yī)生:大便干嗎?\n病人:每次10多天拉的很多\n醫(yī)生:"
target: "成形還是不成形呢?孩子吃飯怎么樣呢?"
同時,在不同的治療階段,治療的側(cè)重點也是不一樣的,指令instruction
的引導(dǎo)與數(shù)據(jù)的場景化顯得尤為重要。
訓(xùn)練方式
訓(xùn)練方式?jīng)Q定著,采取怎樣的訓(xùn)練形式——微調(diào)訓(xùn)練/多階段訓(xùn)練。基于官方微調(diào)文檔的訓(xùn)練還是開源微調(diào)框架的訓(xùn)練,都是不一樣的。
目前來說,越來越多的領(lǐng)域模型是基于開源微調(diào)框架來做的微調(diào)訓(xùn)練,微調(diào)框架比如LLaMA-Factory;相比較官方文檔來說,開源微調(diào)框架的流程更清晰,微調(diào)策略更多樣、訓(xùn)練階段更完善、且支持的數(shù)據(jù)格式也多種。
MVP
MVP是最小可行性產(chǎn)品英文的首字母縮寫,是企業(yè)用最小的成本開發(fā)出可用且能表達出核心理念的產(chǎn)品版本,使其功能極簡但能夠幫助企業(yè)快速驗證對產(chǎn)品的構(gòu)思。
準備好AI模型與服務(wù)器后,按上述的流程實現(xiàn)一個MVP,以供產(chǎn)品人員試用、客戶演示、進而實現(xiàn)項目最小閉環(huán);最終就是走向產(chǎn)品迭代,不斷演進。
轉(zhuǎn)載請注明出處:https://www.cnblogs.com/zhiyong-ITNote
首發(fā)于個人公眾號文章來源:http://www.zghlxwxcb.cn/news/detail-841940.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-841940.html
到了這里,關(guān)于聊聊心理醫(yī)療領(lǐng)域大模型的落地思考的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!