国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2

這篇具有很好參考價(jià)值的文章主要介紹了DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

自從 LLaMA 被提出以來(lái),開(kāi)源大型語(yǔ)言模型(LLM)的快速發(fā)展就引起了廣泛研究關(guān)注,隨后的一些研究就主要集中于訓(xùn)練固定大小和高質(zhì)量的模型,但這往往忽略了對(duì) LLM 縮放規(guī)律的深入探索。

開(kāi)源 LLM 的縮放研究可以促使 LLM 提高性能和拓展應(yīng)用領(lǐng)域,對(duì)于推進(jìn)自然語(yǔ)言處理和人工智能領(lǐng)域具有重要作用。在縮放規(guī)律的指導(dǎo)下,為了解決目前 LLM 縮放領(lǐng)域中存在的不明確性,由 DeepSeek 的 AI 團(tuán)隊(duì)發(fā)布了全新開(kāi)源模型 LLMDeepSeek LLM。此外,作者還在這個(gè)基礎(chǔ)模型上進(jìn)行了監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO),從而創(chuàng)建了 DeepSeek Chat 模型。

在性能方面,DeepSeek LLM 67B 在代碼、數(shù)學(xué)和推理任務(wù)中均超越了 LLaMA-2 70B,而 DeepSeek LLM 67B Chat 在開(kāi)放性評(píng)估中更是超越了 GPT-3.5。這一系列的表現(xiàn)為開(kāi)源 LLM 的未來(lái)發(fā)展奠定了一定基礎(chǔ)。

論文題目:
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

論文鏈接:
https://arxiv.org/abs/2401.02954


與作為人工通用智能(AGI)新標(biāo)桿的 LLaMa 相比,本文提出的 DeepSeek LLM:

  1. 數(shù)據(jù)集規(guī)模:DeepSeek LLM 使用了一個(gè)包含 2 萬(wàn)億字符的雙語(yǔ)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,這比 LLaMA 的數(shù)據(jù)集更大。

  2. 模型性能:DeepSeek LLM 在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于 LLaMA,特別是在代碼、數(shù)學(xué)和推理方面。

  3. 模型架構(gòu):雖然 DeepSeek LLM 在微觀設(shè)計(jì)上主要遵循 LLaMA ,但在宏觀設(shè)計(jì)上有所不同。DeepSeek LLM 7B 是一個(gè) 30 層網(wǎng)絡(luò),而 DeepSeek LLM 67B 有 95 層。這些層數(shù)調(diào)整在保持與其他開(kāi)源模型參數(shù)一致性的同時(shí)優(yōu)化了模型的訓(xùn)練和推理。

  4. 可縮放研究:DeepSeek LLM 對(duì)模型和數(shù)據(jù)尺度的可縮放性進(jìn)行了深入研究,并成功地揭示了最優(yōu)模型/數(shù)據(jù)縮放分配策略,從而預(yù)測(cè)了大規(guī)模模型的性能。

  5. 安全性評(píng)估:DeepSeek LLM 67B 表現(xiàn)優(yōu)秀,能夠在實(shí)踐中提供無(wú)害化的回復(fù)。

預(yù)訓(xùn)練

  • 數(shù)據(jù):為了在確保模型在預(yù)訓(xùn)練階段能夠充分學(xué)習(xí)并獲得高質(zhì)量的語(yǔ)言知識(shí),在構(gòu)建數(shù)據(jù)集過(guò)程中,采取了去重、過(guò)濾和混合三個(gè)基本階段的方法,來(lái)增強(qiáng)數(shù)據(jù)集的豐富性和多樣性。為了提高計(jì)算效率,作者還描述了分詞器的實(shí)現(xiàn)方式,采用了基于 tokenizers 庫(kù)的字節(jié)級(jí)字節(jié)對(duì)編碼(BBPE)算法,使用了預(yù)分詞化和設(shè)置了適當(dāng)?shù)脑~匯表大小。

  • 架構(gòu):主要借鑒了 LLaMA 的 Pre-Norm 結(jié)構(gòu),其中包括 RMSNorm 函數(shù),使用 SwiGLU 作為前饋層的激活函數(shù),中間層維度為?,此外還引入了 Rotary Embedding 用于位置編碼。為了優(yōu)化推理成本,67B 模型沒(méi)采用傳統(tǒng)的 Multi-Head Attention(MHA),而是用了 GroupedQuery Attention(GQA)。

  • 超參數(shù):通過(guò)我們的實(shí)驗(yàn)證明,使用多步學(xué)習(xí)率調(diào)度程序的最終性能與余弦調(diào)度程序基本一致,如圖 1(a) 所示,作者還在圖 1(b) 中演示了調(diào)整多步學(xué)習(xí)率調(diào)度程序不同階段比例,可以略微提升性能。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲圖1 使用不同學(xué)習(xí)率調(diào)度程序或調(diào)度程序不同參數(shù)的訓(xùn)練損失曲線

縮放規(guī)律及影響

作者通過(guò)大量實(shí)驗(yàn),探討了模型和數(shù)據(jù)大小與計(jì)算預(yù)算之間的關(guān)系。研究發(fā)現(xiàn),隨著計(jì)算預(yù)算的增加,模型性能可以通過(guò)增加模型規(guī)模和數(shù)據(jù)規(guī)模來(lái)預(yù)測(cè)性地提高。但是,不同數(shù)據(jù)集對(duì)縮放法則有顯著影響,高質(zhì)量的數(shù)據(jù)可以推動(dòng)更大模型的訓(xùn)練。

超參數(shù)的縮放規(guī)律

在這部分,作者研究了 batch size 和學(xué)習(xí)率的縮放律,并找到了它們隨模型大小的變化趨勢(shì)。圖 2 的實(shí)驗(yàn)展示了 batch size 和學(xué)習(xí)率與計(jì)算預(yù)算之間的關(guān)系,為確定最佳超參數(shù)提供了經(jīng)驗(yàn)框架。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲圖2 訓(xùn)練損失關(guān)于 batch size 和學(xué)習(xí)率的變化

如圖 3 所示,經(jīng)驗(yàn)證實(shí),batch size 隨計(jì)算預(yù)算的增加而增加,而學(xué)習(xí)率則隨計(jì)算預(yù)算的增加而減小。作者指出,他們的研究結(jié)果與一些早期研究中提到的觀點(diǎn)不一致。這些研究可能認(rèn)為最佳 batch size 僅與泛化誤差??有關(guān)。然而,本文的發(fā)現(xiàn)似乎暗示了更為復(fù)雜的關(guān)系,可能受到模型規(guī)模和數(shù)據(jù)分配的影響。作者將在未來(lái)工作中進(jìn)一步研究以了解如何進(jìn)行超參數(shù)和訓(xùn)練動(dòng)態(tài)選擇。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲圖3 batch size 和學(xué)習(xí)率的縮放曲線

估算最優(yōu)的模型和數(shù)據(jù)縮放

表 1 的結(jié)果表明,數(shù)據(jù)質(zhì)量會(huì)影響最優(yōu)模型/數(shù)據(jù)縮放分配策略。數(shù)據(jù)質(zhì)量越高,增加的計(jì)算預(yù)算應(yīng)更多地分配給模型縮放。作者使用了三個(gè)不同的數(shù)據(jù)集來(lái)研究縮放定律,發(fā)現(xiàn)最優(yōu)模型/數(shù)據(jù)縮放分配策略與數(shù)據(jù)質(zhì)量一致。數(shù)據(jù)質(zhì)量提高時(shí),模型縮放指數(shù)逐漸增加,而數(shù)據(jù)縮放指數(shù)減小,這表明增加的計(jì)算預(yù)算應(yīng)更多地分配給模型而不是數(shù)據(jù)。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表1 模型縮放和數(shù)據(jù)縮放的系數(shù)隨訓(xùn)練數(shù)據(jù)分布而變化

對(duì)齊

對(duì)齊流程主要包括兩個(gè)階段:監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)。

監(jiān)督微調(diào)

在微調(diào)階段,作者對(duì) 7B 模型進(jìn)行了 4 個(gè) epoch 的微調(diào),而由于觀察到 67B 模型存在較為嚴(yán)重的過(guò)擬合問(wèn)題,對(duì) 67B 模型僅進(jìn)行了 2 個(gè) epoch 的微調(diào)。

作者還評(píng)估了微調(diào)過(guò)程中聊天模型的重復(fù)率。根據(jù)實(shí)驗(yàn)結(jié)果所示,隨著數(shù)學(xué) SFT 數(shù)據(jù)量的增加,重復(fù)率往往上升。這可以歸因于數(shù)學(xué) SFT 數(shù)據(jù)中偶爾包含相似的推理模式。

直接偏好優(yōu)化(DPO)

此外,作者還采用了直接偏好優(yōu)化算法(DPO)以進(jìn)一步增強(qiáng)模型的能力,這是對(duì)齊大語(yǔ)言模型的一種簡(jiǎn)單而有效的方法。為了構(gòu)建 DPO 訓(xùn)練的偏好數(shù)據(jù),模型根據(jù)有益和無(wú)害兩個(gè)方面進(jìn)行了訓(xùn)練。

實(shí)驗(yàn)結(jié)果顯示,DPO 在增強(qiáng)模型的開(kāi)放性生成能力方面很成功,同時(shí)在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中幾乎沒(méi)有差異。

實(shí)驗(yàn)評(píng)估

實(shí)驗(yàn)表明,盡管 DeepSeek 模型是在 2 萬(wàn)億字符的雙語(yǔ)語(yǔ)料庫(kù)上預(yù)訓(xùn)練的,但在英語(yǔ)語(yǔ)言理解基準(zhǔn)上表現(xiàn)與 token 數(shù)差不多但側(cè)重于英語(yǔ)的 LLaMA-2 模型相當(dāng)。實(shí)驗(yàn)結(jié)果顯示,在相同數(shù)據(jù)集上訓(xùn)練的 7B 和 67B 模型之間,模型縮放對(duì)某些任務(wù)(如 GSM8K 和 BBH)的性能提升效果明顯。然而,隨著數(shù)學(xué)數(shù)據(jù)比例的增加,小型和大型模型之間的性能差異可能會(huì)減小

在表 2 中,DeepSeek 67B 相對(duì)于 LLaMA-2 70B 的優(yōu)勢(shì)大于 DeepSeek 7B 相對(duì)于 LLaMA-2 7B 的優(yōu)勢(shì),突顯了語(yǔ)言沖突對(duì)較小模型的更大影響。此外,LLaMA-2 在某些中文任務(wù)上表現(xiàn)出色,這表明某些基本能力如數(shù)學(xué)推理可以在語(yǔ)言之間有效地遷移。然而,對(duì)于涉及中文成語(yǔ)使用的任務(wù),DeepSeek LLM 相較于 LLaMA-2 表現(xiàn)更出色,特別是在預(yù)訓(xùn)練期間涉及大量中文 token 的情況下。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表2 主要實(shí)驗(yàn)結(jié)果

聊天模型

如表格 3 所示,微調(diào)后的 DeepSeek 聊天模型在大多數(shù)任務(wù)上取得了整體改進(jìn),表現(xiàn)出對(duì)多樣性任務(wù)的適應(yīng)能力。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表3 基礎(chǔ)模型和聊天模型之間的比較

  • 知識(shí)相關(guān)任務(wù):在與知識(shí)相關(guān)的任務(wù)(如 TriviaQA、MMLU、C-Eval)中,基礎(chǔ)模型和聊天模型之間存在一些波動(dòng)。作者指出,這種波動(dòng)不一定意味著在 SFT(聊天模型監(jiān)督微調(diào))后獲取或失去了知識(shí),而是強(qiáng)調(diào) SFT 的價(jià)值在于實(shí)現(xiàn)聊天模型在零樣本設(shè)置中的性能與基礎(chǔ)模型在少樣本設(shè)置中相當(dāng),這與真實(shí)場(chǎng)景一致。

  • 推理任務(wù):由于 SFT 實(shí)例采用了 CoT 格式,聊天模型在推理任務(wù)中表現(xiàn)出些許改進(jìn)。作者認(rèn)為 SFT 階段并未學(xué)到推理能力,而是學(xué)到了正確的推理路徑格式。

  • 性能下降任務(wù):一些任務(wù)在微調(diào)后持續(xù)表現(xiàn)出性能下降,特別是涉及填空或句子完成的任務(wù)(如 HellaSwag)??赡芗冋Z(yǔ)言模型更適合處理這類任務(wù)。

  • 數(shù)學(xué)和編程任務(wù):在數(shù)學(xué)和編程任務(wù)中,微調(diào)后的模型表現(xiàn)出顯著的改進(jìn),例如 HumanEval 和 GSM8K 的提升了 20 多分。這可能是由于 SFT 階段學(xué)到了編程和數(shù)學(xué)方面的額外知識(shí),尤其是在代碼完成和代數(shù)問(wèn)題方面。作者指出,未來(lái)工作可能需要在預(yù)訓(xùn)練階段引入更多樣化的數(shù)據(jù)以全面理解數(shù)學(xué)和編程任務(wù)。

開(kāi)放性評(píng)估

中文開(kāi)放性評(píng)估

實(shí)驗(yàn)結(jié)果顯示,DeepSeek 67B Chat 模型在基本的中文語(yǔ)言任務(wù)中位于所有模型的第一梯隊(duì),甚至在中文基礎(chǔ)語(yǔ)言能力方面超過(guò)了最新版本的 GPT-4。在高級(jí)中文推理任務(wù)中,本文的模型得分明顯高于其他中文 LLM,在更復(fù)雜的中文邏輯推理和數(shù)學(xué)計(jì)算中有著卓越性能。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表4 AlignBench 排行榜

英文開(kāi)放性評(píng)估

DeepSeek LLM 67B Chat 在性能上超過(guò)了 LLaMA-2-Chat 70B 等其他開(kāi)源模型,與 GPT-3.5-turbo 相媲美。此外,經(jīng)過(guò) DPO 階段后,DeepSeek LLM 67B Chat 的平均分進(jìn)一步提升,僅次于 GPT-4。這表明?DeepSeek LLM 在多輪開(kāi)放性生成方面具有強(qiáng)大能力。

▲表5 MT-Bench 評(píng)估

保留集評(píng)估

保留集是模型在訓(xùn)練階段未曾接觸到的數(shù)據(jù)集,用于評(píng)估模型在面對(duì)新領(lǐng)域和未見(jiàn)過(guò)的樣本時(shí)的泛化能力。作者采用了多個(gè)基準(zhǔn)任務(wù)和指標(biāo),包括對(duì)話、數(shù)學(xué)、編程、語(yǔ)言理解等方面的測(cè)試。這些任務(wù)涵蓋了模型需要在實(shí)際應(yīng)用中面對(duì)的各種場(chǎng)景和挑戰(zhàn)。DeepSeek 在各個(gè)階段的保留集評(píng)估中都展現(xiàn)出卓越的性能,驗(yàn)證了其在處理未知任務(wù)和領(lǐng)域時(shí)的強(qiáng)大能力。

安全性評(píng)估

DeepSeek 67B Chat 模型在安全性評(píng)估方面表現(xiàn)良好,其安全性得分高于 ChatGPT 和 GPT-4。在不同的安全測(cè)試類別中,該模型的表現(xiàn)也相對(duì)出色。然而,模型在某些任務(wù)上的表現(xiàn)可能受到數(shù)據(jù)集的局限性影響。例如,初始版本的中文數(shù)據(jù)可能在某些中文特定主題上表現(xiàn)不佳。此外,由于模型主要基于中英文數(shù)據(jù)集,對(duì)其他語(yǔ)言的熟練程度可能相對(duì)較低,需要在實(shí)際應(yīng)用中審慎對(duì)待。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表6 Do-Not-Answer 得分

進(jìn)一步討論

分階段微調(diào)

小型模型在數(shù)學(xué)和代碼數(shù)據(jù)集上需要更長(zhǎng)時(shí)間的微調(diào),但這將損害模型的對(duì)話能力。為了解決這個(gè)問(wèn)題,作者進(jìn)行了分階段微調(diào):

  • 第一階段使用所有可用數(shù)據(jù)進(jìn)行微調(diào);

  • 第二階段專注于使用對(duì)話數(shù)據(jù)進(jìn)行微調(diào)。

表 7 的結(jié)果表明,第二階段不會(huì)損害模型在編程和數(shù)學(xué)方面的熟練程度,同時(shí)降低了重復(fù)行為并增強(qiáng)了指令跟隨的能力。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表7 兩階段微調(diào)結(jié)果

多選題

多選題要求模型不僅具有相應(yīng)的知識(shí),還要理解選項(xiàng)的含義。在對(duì)齊階段,作者測(cè)試了添加 2000 萬(wàn)個(gè)中文多項(xiàng)選擇問(wèn)題并獲得了如表 8 所示的性能。為防止數(shù)據(jù)污染,作者對(duì) C-Eval 驗(yàn)證集和 CMMLU 測(cè)試集進(jìn)行了去重。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表8 添加多項(xiàng)選擇問(wèn)題數(shù)據(jù)的影響

額外添加的多項(xiàng)選擇問(wèn)題不僅對(duì)中文多項(xiàng)選擇基準(zhǔn)有益,還有助于改善英文基準(zhǔn),這表明模型解決多選題的能力已經(jīng)得到了增強(qiáng)。然而,用戶在對(duì)話交互中可能不會(huì)認(rèn)為模型變得更加智能,因?yàn)檫@些交互是生成回復(fù)而非解決多項(xiàng)選擇問(wèn)題。

在預(yù)訓(xùn)練中的指令數(shù)據(jù)

作者探討了在預(yù)訓(xùn)練的后期階段引入指令數(shù)據(jù)對(duì)基礎(chǔ)模型性能的影響。他們?cè)陬A(yù)訓(xùn)練的最后 10% 階段整合了包含多項(xiàng)選擇題在內(nèi)的 500 萬(wàn)條指令數(shù)據(jù),結(jié)果觀察到基礎(chǔ) LLM 模型的性能改進(jìn)。然而,最終結(jié)果幾乎與在 SFT 階段添加相同數(shù)據(jù)時(shí)獲得的結(jié)果相同。因此,盡管這種方法增強(qiáng)了基礎(chǔ)模型在基準(zhǔn)測(cè)試中的性能,但其整體與在預(yù)訓(xùn)練過(guò)程中不引入這些指令數(shù)據(jù)相當(dāng)。

系統(tǒng)提示

這里探討了系統(tǒng)提示對(duì)模型性能的影響。他們采用 LLaMA-2 的系統(tǒng)提示,并稍微修改成為他們的系統(tǒng)提示,明確要求模型以有益、尊重、誠(chéng)實(shí)的方式回答問(wèn)題,同時(shí)禁止包含有害內(nèi)容。

如表 9 所示,作者觀察到一個(gè)有趣的現(xiàn)象,即在引入系統(tǒng)提示時(shí),7B LLM 的性能略微下降。然而,當(dāng)使用 67B LLM 時(shí),添加提示導(dǎo)致結(jié)果顯著改善。他們解釋這種差異的原因是更大的模型能更好理解系統(tǒng)提示背后的預(yù)期含義,使它們能夠更有效地遵循指令并生成更出色的回復(fù)。相反,較小的模型難以充分理解系統(tǒng)提示,訓(xùn)練和測(cè)試之間的不一致可能對(duì)它們的性能產(chǎn)生負(fù)面影響。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表9 添加系統(tǒng)提示的影響

總結(jié)

作者在本文中提出了 DeepSeek LLM,并詳細(xì)解釋了超參數(shù)選擇、縮放規(guī)律以及進(jìn)行的各種微調(diào)嘗試,校準(zhǔn)了以前工作中的縮放規(guī)律,提出了一種新的最優(yōu)模型/數(shù)據(jù)縮放分配策略。通過(guò)縮放規(guī)律的指導(dǎo),我們使用最佳超參數(shù)進(jìn)行預(yù)訓(xùn)練,并進(jìn)行了更為全面的評(píng)估。

然而,DeepSeek Chat 仍然存在一些已知限制:如在預(yù)訓(xùn)練后缺乏知識(shí)更新、生成非事實(shí)信息以及在某些中文特定主題上性能不佳。此外,模型在其他語(yǔ)言上的熟練程度仍然相對(duì)脆弱,需要謹(jǐn)慎對(duì)待。

目前,該團(tuán)隊(duì)正在為即將推出的 DeepSeek LLM 版本構(gòu)建更大、更完善的數(shù)據(jù)集,希望能在下一版本中改進(jìn)推理、中文知識(shí)、數(shù)學(xué)和編程能力。作者的這一系列努力,也體現(xiàn)了他們要在推動(dòng) NLP 和 AIG 領(lǐng)域的創(chuàng)新和提升模型性能方面長(zhǎng)期努力的承諾。

DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2,llama文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-787920.html

到了這里,關(guān)于DeepSeek 發(fā)布全新開(kāi)源大模型,數(shù)學(xué)推理能力超越 LLaMA-2的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Mistral AI發(fā)布首個(gè)開(kāi)源MoE模型,魔搭社區(qū)推理微調(diào)最佳實(shí)踐來(lái)啦!

    Mistral AI發(fā)布首個(gè)開(kāi)源MoE模型,魔搭社區(qū)推理微調(diào)最佳實(shí)踐來(lái)啦!

    原文:Mistral AI發(fā)布首個(gè)開(kāi)源MoE模型,魔搭社區(qū)推理微調(diào)最佳實(shí)踐來(lái)啦! - 知乎 繼Mistral 7B 后,Mistral AI 近日又放出一記大招——發(fā)布了引爆開(kāi)源社區(qū)的首個(gè) MoE 開(kāi)源模型 Mixtral 8x7B,在 Apache 2.0 許可證下可商用。 Mixtral-8x7B 是 一款混合專家模型( Mixtrue of Experts ),由8個(gè)擁有70億

    2024年01月16日
    瀏覽(27)
  • 提高LLaMA-7B的數(shù)學(xué)推理能力

    提高LLaMA-7B的數(shù)學(xué)推理能力

    這篇文章探討了利用多視角微調(diào)方法提高數(shù)學(xué)推理的泛化能力。數(shù)學(xué)推理在相對(duì)較小的語(yǔ)言模型中仍然是一個(gè)挑戰(zhàn),許多現(xiàn)有方法傾向于依賴龐大但效率低下的大語(yǔ)言模型進(jìn)行知識(shí)蒸餾。研究人員提出了一種避免過(guò)度依賴大語(yǔ)言模型的新方法,該方法通過(guò)有效利用具有不同注

    2024年02月16日
    瀏覽(27)
  • 體驗(yàn)訊飛星火認(rèn)知大模型,據(jù)說(shuō)中文能力超越ChatGPT

    體驗(yàn)訊飛星火認(rèn)知大模型,據(jù)說(shuō)中文能力超越ChatGPT

    ?? 作者簡(jiǎn)介:大家好,我是阿牛,全棧領(lǐng)域優(yōu)質(zhì)創(chuàng)作者。?? ?? 個(gè)人主頁(yè):館主阿牛?? ?? 支持我:點(diǎn)贊??+收藏??+留言?? ??格言:迄今所有人生都大寫著失敗,但不妨礙我繼續(xù)向前!?? 5月6號(hào),科大訊飛發(fā)布了訊飛星火認(rèn)知大模型,據(jù)傳是國(guó)產(chǎn)最強(qiáng)AI,訊飛董事長(zhǎng)在

    2024年02月04日
    瀏覽(22)
  • 【AIGC】ChatGLM2-6B大模型 據(jù)稱推理性能超越Chat4.0

    【AIGC】ChatGLM2-6B大模型 據(jù)稱推理性能超越Chat4.0

    models ChatGLM2-6B 是開(kāi)源中英雙語(yǔ)對(duì)話模型 ChatGLM-6B 的第二代版本,在保留了初代模型對(duì)話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)之上,ChatGLM2-6B 引入了如下新特性: 更強(qiáng)大的性能:基于 ChatGLM 初代模型的開(kāi)發(fā)經(jīng)驗(yàn),我們?nèi)嫔?jí)了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了

    2024年02月11日
    瀏覽(37)
  • 思維鏈Prompting促進(jìn)大型語(yǔ)言模型的推理能力

    思維鏈Prompting促進(jìn)大型語(yǔ)言模型的推理能力

    論文標(biāo)題:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 論文鏈接:https://arxiv.org/abs/2201.11903 論文來(lái)源:NeurIPS 2022 近來(lái)NLP領(lǐng)域由于語(yǔ)言模型的發(fā)展取得了顛覆性的進(jìn)展,擴(kuò)大語(yǔ)言模型的規(guī)模帶來(lái)了一系列的性能提升,然而單單是擴(kuò)大模型規(guī)模對(duì)于一些具有挑戰(zhàn)性的任

    2024年02月01日
    瀏覽(21)
  • CodeGeeX2 模型全新上線,編程助手能力全面升級(jí)!

    CodeGeeX2 模型全新上線,編程助手能力全面升級(jí)!

    第二代CodeGeeX代碼生成模型CodeGeeX2-6B已于近日發(fā)布,并在CodeGeeX編程助手插件上全面上線。新模型基于 ChatGLM2-6B 架構(gòu)加入代碼預(yù)訓(xùn)練實(shí)現(xiàn),精度更高、速度更快、能力更強(qiáng)。 下面我們一起來(lái)看一下新版模型給CodeGeeX編程助手帶來(lái)的變化吧: 一、代碼生成更快更精準(zhǔn),問(wèn)答更智

    2024年02月14日
    瀏覽(23)
  • 英偉達(dá)黃仁勛發(fā)布GB200,比H100推理能力提高30倍,能耗降低25倍,將AI4S能力做成微服務(wù)

    英偉達(dá)黃仁勛發(fā)布GB200,比H100推理能力提高30倍,能耗降低25倍,將AI4S能力做成微服務(wù)

    「AI 的 iPhone 時(shí)刻已經(jīng)到來(lái)。」黃仁勛在英偉達(dá) GTC 2023 上的金句言猶在耳,這一年,AI 的發(fā)展也印證了其所言非虛。 多年來(lái),伴隨 AI 發(fā)展提速,加之英偉達(dá)的技術(shù)與生態(tài)護(hù)城河難以撼動(dòng),GTC 已經(jīng)從最初的技術(shù)會(huì)議逐漸升級(jí)為全產(chǎn)業(yè)鏈共同關(guān)注的 AI 行業(yè)盛會(huì),英偉達(dá)秀出的「

    2024年03月27日
    瀏覽(36)
  • 每周編輯精選|微軟開(kāi)源 Orca-Math 高質(zhì)量數(shù)學(xué)數(shù)據(jù)集、清華大學(xué)研究團(tuán)隊(duì)發(fā)布條件去噪擴(kuò)散模型 SPDiff...

    每周編輯精選|微軟開(kāi)源 Orca-Math 高質(zhì)量數(shù)學(xué)數(shù)據(jù)集、清華大學(xué)研究團(tuán)隊(duì)發(fā)布條件去噪擴(kuò)散模型 SPDiff...

    Orca-Math 是微軟研究院發(fā)布的數(shù)學(xué)推理模型, 該模型展示了較小的專業(yè)模型在特定領(lǐng)域的價(jià)值,它們可以匹配甚至超越更大模型的性能。 微軟近期開(kāi)源了用于訓(xùn)練 Orca-Math 的 Orca-Math-200K 數(shù)學(xué)單詞問(wèn)題數(shù)據(jù)集,現(xiàn)已在 hyper.ai 官網(wǎng)提供下載,快來(lái)體驗(yàn)吧! 3 月 11 日-3 月 15 日,

    2024年03月22日
    瀏覽(97)
  • 推理還是背誦?通過(guò)反事實(shí)任務(wù)探索語(yǔ)言模型的能力和局限性

    推理還是背誦?通過(guò)反事實(shí)任務(wù)探索語(yǔ)言模型的能力和局限性

    最近,語(yǔ)言模型在各種任務(wù)中展現(xiàn)出的令人印象深刻的性能表現(xiàn),表明它們具備一定程度的抽象推理能力。這些能力是通用且 可轉(zhuǎn)移 的,還是專門用于預(yù)訓(xùn)練期間接觸到的特定任務(wù)?為了解開(kāi)這些效應(yīng),本提出了一種基于\\\"反事實(shí)\\\"任務(wù)變體的評(píng)估框架,這些變體偏離了標(biāo)準(zhǔn)任

    2024年02月07日
    瀏覽(25)
  • 大模型推理最新論文及源碼合集,涵蓋多模態(tài)推理、邏輯推理、數(shù)學(xué)推理

    大模型推理最新論文及源碼合集,涵蓋多模態(tài)推理、邏輯推理、數(shù)學(xué)推理

    大模型推理技術(shù)的發(fā)展幫我們解決了許多的難題,但如今的大模型在復(fù)雜推理上的表現(xiàn)仍然欠佳,為了突破這一瓶頸,研究者們提出了許多創(chuàng)新性的方法。 我整理了其中一部分個(gè)人認(rèn)為很值得學(xué)習(xí)的論文來(lái)和大家分享,涵蓋多模態(tài)推理、邏輯推理、數(shù)學(xué)推理三個(gè)細(xì)分方向,幫

    2024年02月06日
    瀏覽(24)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包