“?Meta 開源?LLAMA2 后,國內(nèi)出現(xiàn)了不少以此為基座模型訓(xùn)練的中文模型,這次我們來看看其中一個不錯的中文模型:Chinese-LLaMA-Alpaca-2?。”
01
—
目前在開源大模型中,比較有名的是Meta的LLAMA模型系列和清華的ChatGLM模型。
特別是在中文領(lǐng)域上,ChatGLM模型經(jīng)過中文問答和對話的優(yōu)化,更加符合中文使用者的偏好回答。
我對ChatGLM比較關(guān)注,出來的時候就開始體驗(yàn)和嘗試本地部署,之前有幾篇關(guān)于ChatGLM的文章。
ChatGLM 更新:LongBench—評測長文本理解能力的數(shù)據(jù)集,支持 32k 上下文的 ChatGLM2-6B-32K
快捷部署清華大模型 ChatGLM2-6B,一鍵搞定 HuggingFace Space 空間
ChatGLM2-6B 初體驗(yàn)
自從Meta于7月19日凌晨開源了Llama2,并且可免費(fèi)商用后,國內(nèi)也開始了基于Llama2的中文大模型訓(xùn)練,并推出了相應(yīng)的中文模型。
今天推薦朋友們看看其中一個比較好的中文模型: Chinese-LLaMA-Alpaca-2,它Llama-2的基礎(chǔ)上擴(kuò)充并優(yōu)化了中文詞表,使用了大規(guī)模中文數(shù)據(jù)進(jìn)行增量預(yù)訓(xùn)練,進(jìn)一步提升了中文基礎(chǔ)語義和指令理解能力。
目前已開源的模型:Chinese-LLaMA-2(7B/13B), Chinese-Alpaca-2(7B/13B)。開源地址:
https://github.com/ymcui/Chinese-LLaMA-Alpaca-2
看一下它的對話效果。????????
模型特點(diǎn)
優(yōu)化的中文詞表
在二期中,團(tuán)隊(duì)以一期中文字詞(LLaMA:49953,Alpaca:49954)基礎(chǔ)上的重新設(shè)計了新詞表(大?。?5296),進(jìn)一步提升了中文字詞的覆蓋程度,同時統(tǒng)一了LLaMA/Alpaca的詞表,避免了因混用詞表帶來的問題,以期進(jìn)一步提升模型對中文文本的編解碼效率
基于FlashAttention-2的高效注意力
FlashAttention-2是高效注意力機(jī)制的一種實(shí)現(xiàn),相比其一代技術(shù)具有更快的速度和更優(yōu)化的顯存占用
當(dāng)上下文長度更長時,為了避免顯存爆炸式的增長,使用此類高效注意力技術(shù)尤為重要
所有模型均使用了FlashAttention-2技術(shù)進(jìn)行訓(xùn)練
基于NTK的自適應(yīng)上下文擴(kuò)展技術(shù)
在一期項(xiàng)目中,團(tuán)隊(duì)實(shí)現(xiàn)了基于NTK的上下文擴(kuò)展技術(shù),可在不繼續(xù)訓(xùn)練模型的情況下支持更長的上下文
在上述基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步設(shè)計了方便的自適應(yīng)經(jīng)驗(yàn)公式,無需針對不同的上下文長度設(shè)置相應(yīng)超參
本項(xiàng)目模型原生支持4K上下文,利用上述技術(shù)可擴(kuò)展至12K,并最高支持?jǐn)U展至18K+(精度有一定損失)
模型在原版Llama-2的基礎(chǔ)上擴(kuò)充并優(yōu)化了中文詞表,使用了大規(guī)模中文數(shù)據(jù)進(jìn)行增量預(yù)訓(xùn)練,進(jìn)一步提升了中文基礎(chǔ)語義和指令理解能力,相比一代相關(guān)模型獲得了顯著性能提升。相關(guān)模型支持FlashAttention-2訓(xùn)練,支持4K上下文并可通過NTK方法最高擴(kuò)展至18K+。
(NTK代表"Neural Tangents Kernel",是一種用于分析神經(jīng)網(wǎng)絡(luò)行為的工具,特別是在深度學(xué)習(xí)中的無窮窄網(wǎng)絡(luò)架構(gòu)。NTK分析的主要目標(biāo)是了解神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中的動態(tài)行為,尤其是在網(wǎng)絡(luò)權(quán)重隨機(jī)初始化的情況下,網(wǎng)絡(luò)的輸出如何隨著訓(xùn)練數(shù)據(jù)的變化而變化。
NTK分析的核心思想是,通過使用網(wǎng)絡(luò)的初始權(quán)重和激活函數(shù),可以近似網(wǎng)絡(luò)在訓(xùn)練過程中的行為。這種近似可以將神經(jīng)網(wǎng)絡(luò)視為一個線性的無窮窄網(wǎng)絡(luò),這種網(wǎng)絡(luò)在訓(xùn)練過程中不會發(fā)生非線性變化。這種近似使得可以通過分析線性核函數(shù)的性質(zhì)來研究網(wǎng)絡(luò)的行為,從而更好地理解網(wǎng)絡(luò)的一些特性,如收斂性、泛化能力等。
NTK分析在一些領(lǐng)域中具有應(yīng)用,比如幫助理解神經(jīng)網(wǎng)絡(luò)在訓(xùn)練早期的行為,從而指導(dǎo)訓(xùn)練策略的設(shè)計;還可以用于研究網(wǎng)絡(luò)架構(gòu)的影響、初始化方法的選擇等。然而,需要注意的是,NTK分析是一種近似方法,在某些情況下可能與真實(shí)的神經(jīng)網(wǎng)絡(luò)行為存在一些差異。)
簡化的中英雙語系統(tǒng)提示語
在一期項(xiàng)目中,中文Alpaca系列模型使用了Stanford Alpaca的指令模板和系統(tǒng)提示語
初步實(shí)驗(yàn)發(fā)現(xiàn),Llama-2-Chat系列模型的默認(rèn)系統(tǒng)提示語未能帶來統(tǒng)計顯著的性能提升,且其內(nèi)容過于冗長
本項(xiàng)目中的Alpaca-2系列模型簡化了系統(tǒng)提示語,同時遵循Llama-2-Chat指令模板,以便更好地適配相關(guān)生態(tài)
(Stanford Alpaca是一個大型中文預(yù)訓(xùn)練語言模型,其指令模版(Prompt Template)指的是該模型訓(xùn)練過程中使用的一種指令學(xué)習(xí)機(jī)制。
具體來說,Stanford Alpaca的訓(xùn)練采用了以下方法:
人工構(gòu)建了大量的中英文指令對,如"翻譯成中文" - "Translate into Chinese"。
在模型預(yù)訓(xùn)練時,同時輸入這些指令和對應(yīng)的訓(xùn)練文本,讓模型學(xué)習(xí)執(zhí)行特定指令的能力。
在微調(diào)或使用階段,可以用這些預(yù)定義的指令提示模型執(zhí)行相應(yīng)的語言任務(wù),如翻譯、摘要等。
用戶也可以自定義新的指令模版,擴(kuò)展模型的能力。
通過這種指令學(xué)習(xí)機(jī)制,Stanford Alpaca可以更好地理解人類的意圖,執(zhí)行符合指令的語言處理任務(wù),提高了模型的適用性和可控性。預(yù)定義的指令模版起到了領(lǐng)域自適應(yīng)的作用。)
模型選擇指引
下面是中文LLaMA-2和Alpaca-2模型的基本對比以及建議使用場景。
從上表看,如果以大模型為核心做應(yīng)用,最好選擇Alpaca-2。比如和模型聊天交互,如果想從一個基座模型,訓(xùn)練一個垂直行業(yè)類的模型,選擇LLaMA-2比較合適。
推理與部署
模型主要支持以下量化、推理和部署方式,具體內(nèi)容請參考官網(wǎng)的對應(yīng)教程。
C-Eval評測??
一個全面的中文基礎(chǔ)模型評估套件,其中驗(yàn)證集包含1.3K個選擇題,測試集包含12.3K個選擇題,涵蓋52個學(xué)科,題目類型為選擇題。實(shí)驗(yàn)結(jié)果以“zero-shot / 5-shot”進(jìn)行呈現(xiàn)。
CMMLU評測
綜合性中文評測數(shù)據(jù)集,專門用于評估語言模型在中文語境下的知識和推理能力,涵蓋了從基礎(chǔ)學(xué)科到高級專業(yè)水平的67個主題,共計11.5K個測試樣例,題目類型為選擇題。
感興趣的朋友,可以去官網(wǎng)下載模型,本地或者云平臺運(yùn)行一下,體驗(yàn)對話效果,和指令執(zhí)行的效果。???
如果自己有開發(fā)基于大模型的應(yīng)用,可以在此基礎(chǔ)上,增加對這個中文模型的調(diào)用支持。??
閱讀推薦:
OpenAI 或于 2024 年底破產(chǎn)?外媒也這么愛標(biāo)題黨
LLama2詳細(xì)解讀 | Meta開源之光LLama2是如何追上ChatGPT的?
免費(fèi)!深夜福利|英偉達(dá)推出NGC目錄 - GPU加速的AI模型和SDK:Llama 2和SDXL
ChatGPT 的“自定義”功能對免費(fèi)用戶開放,在問題信息不足情況下還會反問來獲取必要信息
ChatGPT 微信助手上線!問答更便捷,功能持續(xù)升級中。
人人可拍大片!全AI制作的電影效果炸裂!
Claude 2 解讀 ChatGPT 4 的技術(shù)秘密:細(xì)節(jié):參數(shù)數(shù)量、架構(gòu)、基礎(chǔ)設(shè)施、訓(xùn)練數(shù)據(jù)集、成本
AI人工智能大模型失守!ChatGPT、BARD、BING、Claude 相繼被"提示攻擊"攻陷!
文章來源:http://www.zghlxwxcb.cn/news/detail-736379.html
擁抱未來,學(xué)習(xí) AI 技能!關(guān)注我,免費(fèi)領(lǐng)取 AI 學(xué)習(xí)資源。文章來源地址http://www.zghlxwxcb.cn/news/detail-736379.html
到了這里,關(guān)于中文大模型 Chinese-LLaMA-Alpaca-2 開源且可以商用的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!