歡迎關(guān)注公眾號 - 【AICV與前沿】,一起學(xué)習(xí)最新技術(shù)吧
歡迎關(guān)注公眾號 - 【AICV與前沿】,一起學(xué)習(xí)最新技術(shù)吧
歡迎關(guān)注公眾號 - 【AICV與前沿】,一起學(xué)習(xí)最新技術(shù)吧
開源地址:https://github.com/ictnlp/BayLing
文章:https://arxiv.org/pdf/2306.10968.pdf
寫在前面
大型語言模型(llm)在語言理解和生成方面表現(xiàn)出了非凡的能力。從基礎(chǔ)llm到后續(xù)llm,指令調(diào)整在使llm與人類偏好保持一致方面起著至關(guān)重要的作用。
然而,現(xiàn)有的llm通常專注于英語,導(dǎo)致非英語語言的表現(xiàn)較差。為了提高非英語語言的性能,需要為基礎(chǔ)llm收集特定語言的訓(xùn)練數(shù)據(jù),并構(gòu)建特定語言的指令進(jìn)行指令調(diào)優(yōu),這兩者都是繁重的工作。為了最大限度地減少人工工作量,我們建議通過交互式翻譯任務(wù)將語言生成和指令遵循的能力從英語轉(zhuǎn)移到其他語言。
我們利用LLaMA作為基礎(chǔ)LLM,自動構(gòu)建交互式翻譯指令來指導(dǎo)調(diào)優(yōu),開發(fā)了指令跟隨LLM BayLing。廣泛的評估表明,盡管使用了相當(dāng)小的參數(shù)尺寸,只有130億,但百靈實現(xiàn)了與gpt -3.5 turbo相當(dāng)?shù)男阅堋7g任務(wù)實驗結(jié)果表明,與GPT-4自動評估相比,BayLing的單輪翻譯能力達(dá)到95%,與gpt -3.5 turbo人工評估相比,交互式翻譯能力達(dá)到96%。為了評估一般任務(wù)的性能,我們創(chuàng)建了一個多回合指令測試集BayLing-80。在BayLing-80上的實驗結(jié)果表明,與gpt -3.5 turbo相比,BayLing的性能提高了89%。在中國高考和英語SAT的知識評估中也表現(xiàn)出色,在眾多遵循教學(xué)的llm中僅次于gpt -3.5 turbo。
相關(guān)工作
自然語言處理(NLP)的最新進(jìn)展導(dǎo)致了強(qiáng)大的大型語言模型的發(fā)展,如GPT-3、PaLM、OPT、GLM、BLOOM和LLaMA。在大型語料庫上進(jìn)行預(yù)訓(xùn)練使這些基礎(chǔ)llm具有非凡的語言理解和生成能力。在此基礎(chǔ)上,這些基礎(chǔ)llm要發(fā)展成為ChatGPT和GPT-4等強(qiáng)大的指令跟隨llm,最重要的一步是理解人類指令并與人類偏好保持一致。
ChatGPT是llm領(lǐng)域的一個里程碑,它通過應(yīng)用指令調(diào)優(yōu)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),賦予llm非凡的理解人類指令并與人類偏好保持一致的能力。然而,由于與RLHF階段相關(guān)的大量勞動力成本,研究人員主要通過高質(zhì)量的指令調(diào)諧來努力使llm與人類偏好保持一致,從而在該領(lǐng)域取得了值得注意的進(jìn)展。
在本研究中,我們關(guān)注的是如何將LLM從英語為主的語料庫中學(xué)習(xí)到的語言生成和指令跟隨能力轉(zhuǎn)移到其他語言。特別是,我們的目標(biāo)是找到一種通過指令調(diào)優(yōu)同時轉(zhuǎn)移這些功能的有效方法。為此,我們開發(fā)了使用多回合交互式翻譯任務(wù)的BayLing,以同時提高llm的語言對齊、指令跟隨和多回合交互能力。Bayling的出現(xiàn)填補(bǔ)了以往跨語對齊和多回合互動中指令調(diào)優(yōu)研究的空白。
基礎(chǔ)模型
LLaMA在廣泛的英語任務(wù)中表現(xiàn)出了出色的表現(xiàn),它接受了大約1.4萬億英語主導(dǎo)代幣的訓(xùn)練。鑒于LLaMA-7B和LLaMA-13B具有出色的理解能力和生成能力,將它們分別作為BayLing-7B和BayLing-13B的基礎(chǔ)模型。
對齊交互式翻譯任務(wù)
在互動式翻譯中,用戶與llm進(jìn)行多輪交流,對譯文進(jìn)行潤色,直到滿意為止。下圖提供了交互式翻譯的示例。為了滿足用戶的需求,LLM首先需要理解用戶的意圖,然后根據(jù)用戶的意圖生成譯文。
由于所涉及的固有挑戰(zhàn)和復(fù)雜性,交互式翻譯的有效執(zhí)行要求llm在語言對齊,指令跟隨和上下文理解方面表現(xiàn)出高水平的熟練程度。此外,由于多回合交互任務(wù)始終以人為中心,并鼓勵llm的輸出滿足用戶的需求和約束,因此llm與人類偏好的一致性自然得到增強(qiáng)。因此,交互式翻譯任務(wù)為同時提高llm的語言一致性和指令跟隨能力提供了一個理想的機(jī)會。此外,llm可以利用其強(qiáng)大的泛化能力,將這些從交互式翻譯中學(xué)到的熟練程度轉(zhuǎn)移到其他任務(wù)中。
為此,我們構(gòu)建了一個包含160K交互翻譯實例的指令數(shù)據(jù)集,包括詞匯、語法、風(fēng)格、創(chuàng)作等多種交互類型。為了增強(qiáng)BayLing指令數(shù)據(jù)的多樣性,我們在指令數(shù)據(jù)中補(bǔ)充了相關(guān)的公共數(shù)據(jù)集,包括單圈指令數(shù)據(jù)的Alpaca和多圈指令數(shù)據(jù)的ShareGPT。下表給出了百靈使用的教學(xué)數(shù)據(jù)統(tǒng)計。
訓(xùn)練細(xì)節(jié)
以LLaMA-7B和LLaMA-13B作為基礎(chǔ)模型,對BayLing-7B和BayLing-13B在上述提出的指令數(shù)據(jù)上進(jìn)行微調(diào)。訓(xùn)練配置包括學(xué)習(xí)率為25 -5和權(quán)重衰減為0.0。此外,對BayLing進(jìn)行了3個epoch的微調(diào),使用批大小為32。最大文本長度限制為1024,并且只計算多回合交互中輸出部分的損失。
在訓(xùn)練過程中,使用了DeepSpeed和Gradient checkpoint技術(shù)來優(yōu)化內(nèi)存消耗。在推理過程中,BayLing-13B可以通過8位量化部署在16G內(nèi)存的GPU上。
測評媲美GPT3.5
為了進(jìn)行人工評價,首先選擇了60個句子,其中包括30個漢語句子和30個英語句子作為源句子進(jìn)行翻譯。然后,邀請了5位英語專業(yè)的注釋者,與BayLing-13B、BayLing-7B、ChatGPT17、vicana - 13b和ChatGLM-6B這5個系統(tǒng)進(jìn)行了4次交互,對這60個翻譯句子進(jìn)行了4次交互。系統(tǒng)標(biāo)識是隱藏的,并且是隨機(jī)排列的,以確保注釋者不知道他們正在與之交互的系統(tǒng)。在互動過程中,要求注釋者一半用中文,另一半用英語,以保證教學(xué)語言的多樣性。此外,我們在60個案例中設(shè)計了五個不同的互動類別:詞匯,語法,風(fēng)格,建議和創(chuàng)作(即每個類別由12個案例組成),當(dāng)面對不同類型的需求時,能夠分析系統(tǒng)的性能。
測評發(fā)現(xiàn)百聆的交互翻譯能力與其他開源大模型相比具有明顯優(yōu)勢,13B 參數(shù)量的百聆在這一任務(wù)上的性能甚至能與 175B 參數(shù)量的 ChatGPT 相媲美。
從翻譯能力、指令跟隨能力和多回合交互能力三個方面分別給出了人的評價。
(a)翻譯:評估llm的整體翻譯水平。
(b)指令遵循:評估llm能否成功完成指令并滿足人類要求的程度。
?多回合互動:衡量llm在多回合對話中理解和保持連貫性的能力,測試他們對語境的理解和一致性。文章來源:http://www.zghlxwxcb.cn/news/detail-543286.html
對于每個案例,要求注釋者同時評估五個系統(tǒng)的交互過程,并從翻譯質(zhì)量、指令遵循和多回合交互性能三個方面(每個方面1分)給出1到10分的分?jǐn)?shù)。此外,要求注釋者從這三個方面分別給出5個系統(tǒng)的1到5級。最后將五個注釋者的分?jǐn)?shù)和排名取平均值,作為五個系統(tǒng)的最終分?jǐn)?shù)和排名。文章來源地址http://www.zghlxwxcb.cn/news/detail-543286.html
到了這里,關(guān)于中科院開源多語言大模型Bayling【百聆】:性能媲美GPT-3.5的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!