自從 LLaMA 被提出以來(lái),開(kāi)源大型語(yǔ)言模型(LLM)的快速發(fā)展就引起了廣泛研究關(guān)注,隨后的一些研究就主要集中于訓(xùn)練固定大小和高質(zhì)量的模型,但這往往忽略了對(duì) LLM 縮放規(guī)律的深入探索。
開(kāi)源 LLM 的縮放研究可以促使 LLM 提高性能和拓展應(yīng)用領(lǐng)域,對(duì)于推進(jìn)自然語(yǔ)言處理和人工智能領(lǐng)域具有重要作用。在縮放規(guī)律的指導(dǎo)下,為了解決目前 LLM 縮放領(lǐng)域中存在的不明確性,由 DeepSeek 的 AI 團(tuán)隊(duì)發(fā)布了全新開(kāi)源模型 LLMDeepSeek LLM。此外,作者還在這個(gè)基礎(chǔ)模型上進(jìn)行了監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO),從而創(chuàng)建了 DeepSeek Chat 模型。
在性能方面,DeepSeek LLM 67B 在代碼、數(shù)學(xué)和推理任務(wù)中均超越了 LLaMA-2 70B,而 DeepSeek LLM 67B Chat 在開(kāi)放性評(píng)估中更是超越了 GPT-3.5。這一系列的表現(xiàn)為開(kāi)源 LLM 的未來(lái)發(fā)展奠定了一定基礎(chǔ)。
論文題目:
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
論文鏈接:
https://arxiv.org/abs/2401.02954
與作為人工通用智能(AGI)新標(biāo)桿的 LLaMa 相比,本文提出的 DeepSeek LLM:
-
數(shù)據(jù)集規(guī)模:DeepSeek LLM 使用了一個(gè)包含 2 萬(wàn)億字符的雙語(yǔ)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,這比 LLaMA 的數(shù)據(jù)集更大。
-
模型性能:DeepSeek LLM 在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于 LLaMA,特別是在代碼、數(shù)學(xué)和推理方面。
-
模型架構(gòu):雖然 DeepSeek LLM 在微觀設(shè)計(jì)上主要遵循 LLaMA ,但在宏觀設(shè)計(jì)上有所不同。DeepSeek LLM 7B 是一個(gè) 30 層網(wǎng)絡(luò),而 DeepSeek LLM 67B 有 95 層。這些層數(shù)調(diào)整在保持與其他開(kāi)源模型參數(shù)一致性的同時(shí)優(yōu)化了模型的訓(xùn)練和推理。
-
可縮放研究:DeepSeek LLM 對(duì)模型和數(shù)據(jù)尺度的可縮放性進(jìn)行了深入研究,并成功地揭示了最優(yōu)模型/數(shù)據(jù)縮放分配策略,從而預(yù)測(cè)了大規(guī)模模型的性能。
-
安全性評(píng)估:DeepSeek LLM 67B 表現(xiàn)優(yōu)秀,能夠在實(shí)踐中提供無(wú)害化的回復(fù)。
預(yù)訓(xùn)練
-
數(shù)據(jù):為了在確保模型在預(yù)訓(xùn)練階段能夠充分學(xué)習(xí)并獲得高質(zhì)量的語(yǔ)言知識(shí),在構(gòu)建數(shù)據(jù)集過(guò)程中,采取了去重、過(guò)濾和混合三個(gè)基本階段的方法,來(lái)增強(qiáng)數(shù)據(jù)集的豐富性和多樣性。為了提高計(jì)算效率,作者還描述了分詞器的實(shí)現(xiàn)方式,采用了基于 tokenizers 庫(kù)的字節(jié)級(jí)字節(jié)對(duì)編碼(BBPE)算法,使用了預(yù)分詞化和設(shè)置了適當(dāng)?shù)脑~匯表大小。
-
架構(gòu):主要借鑒了 LLaMA 的 Pre-Norm 結(jié)構(gòu),其中包括 RMSNorm 函數(shù),使用 SwiGLU 作為前饋層的激活函數(shù),中間層維度為?,此外還引入了 Rotary Embedding 用于位置編碼。為了優(yōu)化推理成本,67B 模型沒(méi)采用傳統(tǒng)的 Multi-Head Attention(MHA),而是用了 GroupedQuery Attention(GQA)。
-
超參數(shù):通過(guò)我們的實(shí)驗(yàn)證明,使用多步學(xué)習(xí)率調(diào)度程序的最終性能與余弦調(diào)度程序基本一致,如圖 1(a) 所示,作者還在圖 1(b) 中演示了調(diào)整多步學(xué)習(xí)率調(diào)度程序不同階段比例,可以略微提升性能。
▲圖1 使用不同學(xué)習(xí)率調(diào)度程序或調(diào)度程序不同參數(shù)的訓(xùn)練損失曲線
縮放規(guī)律及影響
作者通過(guò)大量實(shí)驗(yàn),探討了模型和數(shù)據(jù)大小與計(jì)算預(yù)算之間的關(guān)系。研究發(fā)現(xiàn),隨著計(jì)算預(yù)算的增加,模型性能可以通過(guò)增加模型規(guī)模和數(shù)據(jù)規(guī)模來(lái)預(yù)測(cè)性地提高。但是,不同數(shù)據(jù)集對(duì)縮放法則有顯著影響,高質(zhì)量的數(shù)據(jù)可以推動(dòng)更大模型的訓(xùn)練。
超參數(shù)的縮放規(guī)律
在這部分,作者研究了 batch size 和學(xué)習(xí)率的縮放律,并找到了它們隨模型大小的變化趨勢(shì)。圖 2 的實(shí)驗(yàn)展示了 batch size 和學(xué)習(xí)率與計(jì)算預(yù)算之間的關(guān)系,為確定最佳超參數(shù)提供了經(jīng)驗(yàn)框架。
▲圖2 訓(xùn)練損失關(guān)于 batch size 和學(xué)習(xí)率的變化
如圖 3 所示,經(jīng)驗(yàn)證實(shí),batch size 隨計(jì)算預(yù)算的增加而增加,而學(xué)習(xí)率則隨計(jì)算預(yù)算的增加而減小。作者指出,他們的研究結(jié)果與一些早期研究中提到的觀點(diǎn)不一致。這些研究可能認(rèn)為最佳 batch size 僅與泛化誤差??有關(guān)。然而,本文的發(fā)現(xiàn)似乎暗示了更為復(fù)雜的關(guān)系,可能受到模型規(guī)模和數(shù)據(jù)分配的影響。作者將在未來(lái)工作中進(jìn)一步研究以了解如何進(jìn)行超參數(shù)和訓(xùn)練動(dòng)態(tài)選擇。
▲圖3 batch size 和學(xué)習(xí)率的縮放曲線
估算最優(yōu)的模型和數(shù)據(jù)縮放
表 1 的結(jié)果表明,數(shù)據(jù)質(zhì)量會(huì)影響最優(yōu)模型/數(shù)據(jù)縮放分配策略。數(shù)據(jù)質(zhì)量越高,增加的計(jì)算預(yù)算應(yīng)更多地分配給模型縮放。作者使用了三個(gè)不同的數(shù)據(jù)集來(lái)研究縮放定律,發(fā)現(xiàn)最優(yōu)模型/數(shù)據(jù)縮放分配策略與數(shù)據(jù)質(zhì)量一致。數(shù)據(jù)質(zhì)量提高時(shí),模型縮放指數(shù)逐漸增加,而數(shù)據(jù)縮放指數(shù)減小,這表明增加的計(jì)算預(yù)算應(yīng)更多地分配給模型而不是數(shù)據(jù)。
▲表1 模型縮放和數(shù)據(jù)縮放的系數(shù)隨訓(xùn)練數(shù)據(jù)分布而變化
對(duì)齊
對(duì)齊流程主要包括兩個(gè)階段:監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)。
監(jiān)督微調(diào)
在微調(diào)階段,作者對(duì) 7B 模型進(jìn)行了 4 個(gè) epoch 的微調(diào),而由于觀察到 67B 模型存在較為嚴(yán)重的過(guò)擬合問(wèn)題,對(duì) 67B 模型僅進(jìn)行了 2 個(gè) epoch 的微調(diào)。
作者還評(píng)估了微調(diào)過(guò)程中聊天模型的重復(fù)率。根據(jù)實(shí)驗(yàn)結(jié)果所示,隨著數(shù)學(xué) SFT 數(shù)據(jù)量的增加,重復(fù)率往往上升。這可以歸因于數(shù)學(xué) SFT 數(shù)據(jù)中偶爾包含相似的推理模式。
直接偏好優(yōu)化(DPO)
此外,作者還采用了直接偏好優(yōu)化算法(DPO)以進(jìn)一步增強(qiáng)模型的能力,這是對(duì)齊大語(yǔ)言模型的一種簡(jiǎn)單而有效的方法。為了構(gòu)建 DPO 訓(xùn)練的偏好數(shù)據(jù),模型根據(jù)有益和無(wú)害兩個(gè)方面進(jìn)行了訓(xùn)練。
實(shí)驗(yàn)結(jié)果顯示,DPO 在增強(qiáng)模型的開(kāi)放性生成能力方面很成功,同時(shí)在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中幾乎沒(méi)有差異。
實(shí)驗(yàn)評(píng)估
實(shí)驗(yàn)表明,盡管 DeepSeek 模型是在 2 萬(wàn)億字符的雙語(yǔ)語(yǔ)料庫(kù)上預(yù)訓(xùn)練的,但在英語(yǔ)語(yǔ)言理解基準(zhǔn)上表現(xiàn)與 token 數(shù)差不多但側(cè)重于英語(yǔ)的 LLaMA-2 模型相當(dāng)。實(shí)驗(yàn)結(jié)果顯示,在相同數(shù)據(jù)集上訓(xùn)練的 7B 和 67B 模型之間,模型縮放對(duì)某些任務(wù)(如 GSM8K 和 BBH)的性能提升效果明顯。然而,隨著數(shù)學(xué)數(shù)據(jù)比例的增加,小型和大型模型之間的性能差異可能會(huì)減小。
在表 2 中,DeepSeek 67B 相對(duì)于 LLaMA-2 70B 的優(yōu)勢(shì)大于 DeepSeek 7B 相對(duì)于 LLaMA-2 7B 的優(yōu)勢(shì),突顯了語(yǔ)言沖突對(duì)較小模型的更大影響。此外,LLaMA-2 在某些中文任務(wù)上表現(xiàn)出色,這表明某些基本能力如數(shù)學(xué)推理可以在語(yǔ)言之間有效地遷移。然而,對(duì)于涉及中文成語(yǔ)使用的任務(wù),DeepSeek LLM 相較于 LLaMA-2 表現(xiàn)更出色,特別是在預(yù)訓(xùn)練期間涉及大量中文 token 的情況下。
▲表2 主要實(shí)驗(yàn)結(jié)果
聊天模型
如表格 3 所示,微調(diào)后的 DeepSeek 聊天模型在大多數(shù)任務(wù)上取得了整體改進(jìn),表現(xiàn)出對(duì)多樣性任務(wù)的適應(yīng)能力。
▲表3 基礎(chǔ)模型和聊天模型之間的比較
-
知識(shí)相關(guān)任務(wù):在與知識(shí)相關(guān)的任務(wù)(如 TriviaQA、MMLU、C-Eval)中,基礎(chǔ)模型和聊天模型之間存在一些波動(dòng)。作者指出,這種波動(dòng)不一定意味著在 SFT(聊天模型監(jiān)督微調(diào))后獲取或失去了知識(shí),而是強(qiáng)調(diào) SFT 的價(jià)值在于實(shí)現(xiàn)聊天模型在零樣本設(shè)置中的性能與基礎(chǔ)模型在少樣本設(shè)置中相當(dāng),這與真實(shí)場(chǎng)景一致。
-
推理任務(wù):由于 SFT 實(shí)例采用了 CoT 格式,聊天模型在推理任務(wù)中表現(xiàn)出些許改進(jìn)。作者認(rèn)為 SFT 階段并未學(xué)到推理能力,而是學(xué)到了正確的推理路徑格式。
-
性能下降任務(wù):一些任務(wù)在微調(diào)后持續(xù)表現(xiàn)出性能下降,特別是涉及填空或句子完成的任務(wù)(如 HellaSwag)??赡芗冋Z(yǔ)言模型更適合處理這類任務(wù)。
-
數(shù)學(xué)和編程任務(wù):在數(shù)學(xué)和編程任務(wù)中,微調(diào)后的模型表現(xiàn)出顯著的改進(jìn),例如 HumanEval 和 GSM8K 的提升了 20 多分。這可能是由于 SFT 階段學(xué)到了編程和數(shù)學(xué)方面的額外知識(shí),尤其是在代碼完成和代數(shù)問(wèn)題方面。作者指出,未來(lái)工作可能需要在預(yù)訓(xùn)練階段引入更多樣化的數(shù)據(jù)以全面理解數(shù)學(xué)和編程任務(wù)。
開(kāi)放性評(píng)估
中文開(kāi)放性評(píng)估
實(shí)驗(yàn)結(jié)果顯示,DeepSeek 67B Chat 模型在基本的中文語(yǔ)言任務(wù)中位于所有模型的第一梯隊(duì),甚至在中文基礎(chǔ)語(yǔ)言能力方面超過(guò)了最新版本的 GPT-4。在高級(jí)中文推理任務(wù)中,本文的模型得分明顯高于其他中文 LLM,在更復(fù)雜的中文邏輯推理和數(shù)學(xué)計(jì)算中有著卓越性能。
▲表4 AlignBench 排行榜
英文開(kāi)放性評(píng)估
DeepSeek LLM 67B Chat 在性能上超過(guò)了 LLaMA-2-Chat 70B 等其他開(kāi)源模型,與 GPT-3.5-turbo 相媲美。此外,經(jīng)過(guò) DPO 階段后,DeepSeek LLM 67B Chat 的平均分進(jìn)一步提升,僅次于 GPT-4。這表明?DeepSeek LLM 在多輪開(kāi)放性生成方面具有強(qiáng)大能力。
▲表5 MT-Bench 評(píng)估
保留集評(píng)估
保留集是模型在訓(xùn)練階段未曾接觸到的數(shù)據(jù)集,用于評(píng)估模型在面對(duì)新領(lǐng)域和未見(jiàn)過(guò)的樣本時(shí)的泛化能力。作者采用了多個(gè)基準(zhǔn)任務(wù)和指標(biāo),包括對(duì)話、數(shù)學(xué)、編程、語(yǔ)言理解等方面的測(cè)試。這些任務(wù)涵蓋了模型需要在實(shí)際應(yīng)用中面對(duì)的各種場(chǎng)景和挑戰(zhàn)。DeepSeek 在各個(gè)階段的保留集評(píng)估中都展現(xiàn)出卓越的性能,驗(yàn)證了其在處理未知任務(wù)和領(lǐng)域時(shí)的強(qiáng)大能力。
安全性評(píng)估
DeepSeek 67B Chat 模型在安全性評(píng)估方面表現(xiàn)良好,其安全性得分高于 ChatGPT 和 GPT-4。在不同的安全測(cè)試類別中,該模型的表現(xiàn)也相對(duì)出色。然而,模型在某些任務(wù)上的表現(xiàn)可能受到數(shù)據(jù)集的局限性影響。例如,初始版本的中文數(shù)據(jù)可能在某些中文特定主題上表現(xiàn)不佳。此外,由于模型主要基于中英文數(shù)據(jù)集,對(duì)其他語(yǔ)言的熟練程度可能相對(duì)較低,需要在實(shí)際應(yīng)用中審慎對(duì)待。
▲表6 Do-Not-Answer 得分
進(jìn)一步討論
分階段微調(diào)
小型模型在數(shù)學(xué)和代碼數(shù)據(jù)集上需要更長(zhǎng)時(shí)間的微調(diào),但這將損害模型的對(duì)話能力。為了解決這個(gè)問(wèn)題,作者進(jìn)行了分階段微調(diào):
-
第一階段使用所有可用數(shù)據(jù)進(jìn)行微調(diào);
-
第二階段專注于使用對(duì)話數(shù)據(jù)進(jìn)行微調(diào)。
表 7 的結(jié)果表明,第二階段不會(huì)損害模型在編程和數(shù)學(xué)方面的熟練程度,同時(shí)降低了重復(fù)行為并增強(qiáng)了指令跟隨的能力。
▲表7 兩階段微調(diào)結(jié)果
多選題
多選題要求模型不僅具有相應(yīng)的知識(shí),還要理解選項(xiàng)的含義。在對(duì)齊階段,作者測(cè)試了添加 2000 萬(wàn)個(gè)中文多項(xiàng)選擇問(wèn)題并獲得了如表 8 所示的性能。為防止數(shù)據(jù)污染,作者對(duì) C-Eval 驗(yàn)證集和 CMMLU 測(cè)試集進(jìn)行了去重。
▲表8 添加多項(xiàng)選擇問(wèn)題數(shù)據(jù)的影響
額外添加的多項(xiàng)選擇問(wèn)題不僅對(duì)中文多項(xiàng)選擇基準(zhǔn)有益,還有助于改善英文基準(zhǔn),這表明模型解決多選題的能力已經(jīng)得到了增強(qiáng)。然而,用戶在對(duì)話交互中可能不會(huì)認(rèn)為模型變得更加智能,因?yàn)檫@些交互是生成回復(fù)而非解決多項(xiàng)選擇問(wèn)題。
在預(yù)訓(xùn)練中的指令數(shù)據(jù)
作者探討了在預(yù)訓(xùn)練的后期階段引入指令數(shù)據(jù)對(duì)基礎(chǔ)模型性能的影響。他們?cè)陬A(yù)訓(xùn)練的最后 10% 階段整合了包含多項(xiàng)選擇題在內(nèi)的 500 萬(wàn)條指令數(shù)據(jù),結(jié)果觀察到基礎(chǔ) LLM 模型的性能改進(jìn)。然而,最終結(jié)果幾乎與在 SFT 階段添加相同數(shù)據(jù)時(shí)獲得的結(jié)果相同。因此,盡管這種方法增強(qiáng)了基礎(chǔ)模型在基準(zhǔn)測(cè)試中的性能,但其整體與在預(yù)訓(xùn)練過(guò)程中不引入這些指令數(shù)據(jù)相當(dāng)。
系統(tǒng)提示
這里探討了系統(tǒng)提示對(duì)模型性能的影響。他們采用 LLaMA-2 的系統(tǒng)提示,并稍微修改成為他們的系統(tǒng)提示,明確要求模型以有益、尊重、誠(chéng)實(shí)的方式回答問(wèn)題,同時(shí)禁止包含有害內(nèi)容。
如表 9 所示,作者觀察到一個(gè)有趣的現(xiàn)象,即在引入系統(tǒng)提示時(shí),7B LLM 的性能略微下降。然而,當(dāng)使用 67B LLM 時(shí),添加提示導(dǎo)致結(jié)果顯著改善。他們解釋這種差異的原因是更大的模型能更好理解系統(tǒng)提示背后的預(yù)期含義,使它們能夠更有效地遵循指令并生成更出色的回復(fù)。相反,較小的模型難以充分理解系統(tǒng)提示,訓(xùn)練和測(cè)試之間的不一致可能對(duì)它們的性能產(chǎn)生負(fù)面影響。
▲表9 添加系統(tǒng)提示的影響
總結(jié)
作者在本文中提出了 DeepSeek LLM,并詳細(xì)解釋了超參數(shù)選擇、縮放規(guī)律以及進(jìn)行的各種微調(diào)嘗試,校準(zhǔn)了以前工作中的縮放規(guī)律,提出了一種新的最優(yōu)模型/數(shù)據(jù)縮放分配策略。通過(guò)縮放規(guī)律的指導(dǎo),我們使用最佳超參數(shù)進(jìn)行預(yù)訓(xùn)練,并進(jìn)行了更為全面的評(píng)估。
然而,DeepSeek Chat 仍然存在一些已知限制:如在預(yù)訓(xùn)練后缺乏知識(shí)更新、生成非事實(shí)信息以及在某些中文特定主題上性能不佳。此外,模型在其他語(yǔ)言上的熟練程度仍然相對(duì)脆弱,需要謹(jǐn)慎對(duì)待。
目前,該團(tuán)隊(duì)正在為即將推出的 DeepSeek LLM 版本構(gòu)建更大、更完善的數(shù)據(jù)集,希望能在下一版本中改進(jìn)推理、中文知識(shí)、數(shù)學(xué)和編程能力。作者的這一系列努力,也體現(xiàn)了他們要在推動(dòng) NLP 和 AIG 領(lǐng)域的創(chuàng)新和提升模型性能方面長(zhǎng)期努力的承諾。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-787920.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-787920.html
到了這里,關(guān)于DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!