国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<dd id="uemfl"></dd>

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2

1年前作者：夕小瑤分類：Toy博客閱讀(116)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

自從 LLaMA 被提出以來(lái)，開(kāi)源大型語(yǔ)言模型（LLM）的快速發(fā)展就引起了廣泛研究關(guān)注，隨后的一些研究就主要集中于訓(xùn)練固定大小和高質(zhì)量的模型，但這往往忽略了對(duì) LLM 縮放規(guī)律的深入探索。

開(kāi)源 LLM 的縮放研究可以促使 LLM 提高性能和拓展應(yīng)用領(lǐng)域，對(duì)于推進(jìn)自然語(yǔ)言處理和人工智能領(lǐng)域具有重要作用。在縮放規(guī)律的指導(dǎo)下，為了解決目前 LLM 縮放領(lǐng)域中存在的不明確性，由 DeepSeek 的 AI 團(tuán)隊(duì)發(fā)布了全新開(kāi)源模型 LLMDeepSeek LLM。此外，作者還在這個(gè)基礎(chǔ)模型上進(jìn)行了監(jiān)督微調(diào)（SFT）和直接偏好優(yōu)化（DPO），從而創(chuàng)建了 DeepSeek Chat 模型。

在性能方面，DeepSeek LLM 67B 在代碼、數(shù)學(xué)和推理任務(wù)中均超越了 LLaMA-2 70B，而 DeepSeek LLM 67B Chat 在開(kāi)放性評(píng)估中更是超越了 GPT-3.5。這一系列的表現(xiàn)為開(kāi)源 LLM 的未來(lái)發(fā)展奠定了一定基礎(chǔ)。

論文題目:
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

論文鏈接:
https://arxiv.org/abs/2401.02954

與作為人工通用智能（AGI）新標(biāo)桿的 LLaMa 相比，本文提出的 DeepSeek LLM：

數(shù)據(jù)集規(guī)模：DeepSeek LLM 使用了一個(gè)包含 2 萬(wàn)億字符的雙語(yǔ)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，這比 LLaMA 的數(shù)據(jù)集更大。
模型性能：DeepSeek LLM 在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于 LLaMA，特別是在代碼、數(shù)學(xué)和推理方面。
模型架構(gòu)：雖然 DeepSeek LLM 在微觀設(shè)計(jì)上主要遵循 LLaMA ，但在宏觀設(shè)計(jì)上有所不同。DeepSeek LLM 7B 是一個(gè) 30 層網(wǎng)絡(luò)，而 DeepSeek LLM 67B 有 95 層。這些層數(shù)調(diào)整在保持與其他開(kāi)源模型參數(shù)一致性的同時(shí)優(yōu)化了模型的訓(xùn)練和推理。
可縮放研究：DeepSeek LLM 對(duì)模型和數(shù)據(jù)尺度的可縮放性進(jìn)行了深入研究，并成功地揭示了最優(yōu)模型/數(shù)據(jù)縮放分配策略，從而預(yù)測(cè)了大規(guī)模模型的性能。
安全性評(píng)估：DeepSeek LLM 67B 表現(xiàn)優(yōu)秀，能夠在實(shí)踐中提供無(wú)害化的回復(fù)。

預(yù)訓(xùn)練

數(shù)據(jù)：為了在確保模型在預(yù)訓(xùn)練階段能夠充分學(xué)習(xí)并獲得高質(zhì)量的語(yǔ)言知識(shí)，在構(gòu)建數(shù)據(jù)集過(guò)程中，采取了去重、過(guò)濾和混合三個(gè)基本階段的方法，來(lái)增強(qiáng)數(shù)據(jù)集的豐富性和多樣性。為了提高計(jì)算效率，作者還描述了分詞器的實(shí)現(xiàn)方式，采用了基于 tokenizers 庫(kù)的字節(jié)級(jí)字節(jié)對(duì)編碼（BBPE）算法，使用了預(yù)分詞化和設(shè)置了適當(dāng)?shù)脑~匯表大小。
架構(gòu)：主要借鑒了 LLaMA 的 Pre-Norm 結(jié)構(gòu)，其中包括 RMSNorm 函數(shù)，使用 SwiGLU 作為前饋層的激活函數(shù)，中間層維度為?，此外還引入了 Rotary Embedding 用于位置編碼。為了優(yōu)化推理成本，67B 模型沒(méi)采用傳統(tǒng)的 Multi-Head Attention（MHA），而是用了 GroupedQuery Attention（GQA）。
超參數(shù)：通過(guò)我們的實(shí)驗(yàn)證明，使用多步學(xué)習(xí)率調(diào)度程序的最終性能與余弦調(diào)度程序基本一致，如圖 1(a) 所示，作者還在圖 1(b) 中演示了調(diào)整多步學(xué)習(xí)率調(diào)度程序不同階段比例，可以略微提升性能。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲圖1 使用不同學(xué)習(xí)率調(diào)度程序或調(diào)度程序不同參數(shù)的訓(xùn)練損失曲線

縮放規(guī)律及影響

作者通過(guò)大量實(shí)驗(yàn)，探討了模型和數(shù)據(jù)大小與計(jì)算預(yù)算之間的關(guān)系。研究發(fā)現(xiàn)，隨著計(jì)算預(yù)算的增加，模型性能可以通過(guò)增加模型規(guī)模和數(shù)據(jù)規(guī)模來(lái)預(yù)測(cè)性地提高。但是，不同數(shù)據(jù)集對(duì)縮放法則有顯著影響，高質(zhì)量的數(shù)據(jù)可以推動(dòng)更大模型的訓(xùn)練。

超參數(shù)的縮放規(guī)律

在這部分，作者研究了 batch size 和學(xué)習(xí)率的縮放律，并找到了它們隨模型大小的變化趨勢(shì)。圖 2 的實(shí)驗(yàn)展示了 batch size 和學(xué)習(xí)率與計(jì)算預(yù)算之間的關(guān)系，為確定最佳超參數(shù)提供了經(jīng)驗(yàn)框架。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲圖2 訓(xùn)練損失關(guān)于 batch size 和學(xué)習(xí)率的變化

如圖 3 所示，經(jīng)驗(yàn)證實(shí)，batch size 隨計(jì)算預(yù)算的增加而增加，而學(xué)習(xí)率則隨計(jì)算預(yù)算的增加而減小。作者指出，他們的研究結(jié)果與一些早期研究中提到的觀點(diǎn)不一致。這些研究可能認(rèn)為最佳 batch size 僅與泛化誤差??有關(guān)。然而，本文的發(fā)現(xiàn)似乎暗示了更為復(fù)雜的關(guān)系，可能受到模型規(guī)模和數(shù)據(jù)分配的影響。作者將在未來(lái)工作中進(jìn)一步研究以了解如何進(jìn)行超參數(shù)和訓(xùn)練動(dòng)態(tài)選擇。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲圖3 batch size 和學(xué)習(xí)率的縮放曲線

估算最優(yōu)的模型和數(shù)據(jù)縮放

表 1 的結(jié)果表明，數(shù)據(jù)質(zhì)量會(huì)影響最優(yōu)模型/數(shù)據(jù)縮放分配策略。數(shù)據(jù)質(zhì)量越高，增加的計(jì)算預(yù)算應(yīng)更多地分配給模型縮放。作者使用了三個(gè)不同的數(shù)據(jù)集來(lái)研究縮放定律，發(fā)現(xiàn)最優(yōu)模型/數(shù)據(jù)縮放分配策略與數(shù)據(jù)質(zhì)量一致。數(shù)據(jù)質(zhì)量提高時(shí)，模型縮放指數(shù)逐漸增加，而數(shù)據(jù)縮放指數(shù)減小，這表明增加的計(jì)算預(yù)算應(yīng)更多地分配給模型而不是數(shù)據(jù)。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表1 模型縮放和數(shù)據(jù)縮放的系數(shù)隨訓(xùn)練數(shù)據(jù)分布而變化

對(duì)齊

對(duì)齊流程主要包括兩個(gè)階段：監(jiān)督微調(diào)（SFT）和直接偏好優(yōu)化（DPO）。

監(jiān)督微調(diào)

在微調(diào)階段，作者對(duì) 7B 模型進(jìn)行了 4 個(gè) epoch 的微調(diào)，而由于觀察到 67B 模型存在較為嚴(yán)重的過(guò)擬合問(wèn)題，對(duì) 67B 模型僅進(jìn)行了 2 個(gè) epoch 的微調(diào)。

作者還評(píng)估了微調(diào)過(guò)程中聊天模型的重復(fù)率。根據(jù)實(shí)驗(yàn)結(jié)果所示，隨著數(shù)學(xué) SFT 數(shù)據(jù)量的增加，重復(fù)率往往上升。這可以歸因于數(shù)學(xué) SFT 數(shù)據(jù)中偶爾包含相似的推理模式。

直接偏好優(yōu)化（DPO）

此外，作者還采用了直接偏好優(yōu)化算法（DPO）以進(jìn)一步增強(qiáng)模型的能力，這是對(duì)齊大語(yǔ)言模型的一種簡(jiǎn)單而有效的方法。為了構(gòu)建 DPO 訓(xùn)練的偏好數(shù)據(jù)，模型根據(jù)有益和無(wú)害兩個(gè)方面進(jìn)行了訓(xùn)練。

實(shí)驗(yàn)結(jié)果顯示，DPO 在增強(qiáng)模型的開(kāi)放性生成能力方面很成功，同時(shí)在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中幾乎沒(méi)有差異。

實(shí)驗(yàn)評(píng)估

實(shí)驗(yàn)表明，盡管 DeepSeek 模型是在 2 萬(wàn)億字符的雙語(yǔ)語(yǔ)料庫(kù)上預(yù)訓(xùn)練的，但在英語(yǔ)語(yǔ)言理解基準(zhǔn)上表現(xiàn)與 token 數(shù)差不多但側(cè)重于英語(yǔ)的 LLaMA-2 模型相當(dāng)。實(shí)驗(yàn)結(jié)果顯示，在相同數(shù)據(jù)集上訓(xùn)練的 7B 和 67B 模型之間，模型縮放對(duì)某些任務(wù)（如 GSM8K 和 BBH）的性能提升效果明顯。然而，隨著數(shù)學(xué)數(shù)據(jù)比例的增加，小型和大型模型之間的性能差異可能會(huì)減小。

在表 2 中，DeepSeek 67B 相對(duì)于 LLaMA-2 70B 的優(yōu)勢(shì)大于 DeepSeek 7B 相對(duì)于 LLaMA-2 7B 的優(yōu)勢(shì)，突顯了語(yǔ)言沖突對(duì)較小模型的更大影響。此外，LLaMA-2 在某些中文任務(wù)上表現(xiàn)出色，這表明某些基本能力如數(shù)學(xué)推理可以在語(yǔ)言之間有效地遷移。然而，對(duì)于涉及中文成語(yǔ)使用的任務(wù)，DeepSeek LLM 相較于 LLaMA-2 表現(xiàn)更出色，特別是在預(yù)訓(xùn)練期間涉及大量中文 token 的情況下。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表2 主要實(shí)驗(yàn)結(jié)果

聊天模型

如表格 3 所示，微調(diào)后的 DeepSeek 聊天模型在大多數(shù)任務(wù)上取得了整體改進(jìn)，表現(xiàn)出對(duì)多樣性任務(wù)的適應(yīng)能力。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表3 基礎(chǔ)模型和聊天模型之間的比較

知識(shí)相關(guān)任務(wù)：在與知識(shí)相關(guān)的任務(wù)（如 TriviaQA、MMLU、C-Eval）中，基礎(chǔ)模型和聊天模型之間存在一些波動(dòng)。作者指出，這種波動(dòng)不一定意味著在 SFT（聊天模型監(jiān)督微調(diào)）后獲取或失去了知識(shí)，而是強(qiáng)調(diào) SFT 的價(jià)值在于實(shí)現(xiàn)聊天模型在零樣本設(shè)置中的性能與基礎(chǔ)模型在少樣本設(shè)置中相當(dāng)，這與真實(shí)場(chǎng)景一致。
推理任務(wù)：由于 SFT 實(shí)例采用了 CoT 格式，聊天模型在推理任務(wù)中表現(xiàn)出些許改進(jìn)。作者認(rèn)為 SFT 階段并未學(xué)到推理能力，而是學(xué)到了正確的推理路徑格式。
性能下降任務(wù)：一些任務(wù)在微調(diào)后持續(xù)表現(xiàn)出性能下降，特別是涉及填空或句子完成的任務(wù)（如 HellaSwag）?？赡芗冋Z(yǔ)言模型更適合處理這類任務(wù)。
數(shù)學(xué)和編程任務(wù)：在數(shù)學(xué)和編程任務(wù)中，微調(diào)后的模型表現(xiàn)出顯著的改進(jìn)，例如 HumanEval 和 GSM8K 的提升了 20 多分。這可能是由于 SFT 階段學(xué)到了編程和數(shù)學(xué)方面的額外知識(shí)，尤其是在代碼完成和代數(shù)問(wèn)題方面。作者指出，未來(lái)工作可能需要在預(yù)訓(xùn)練階段引入更多樣化的數(shù)據(jù)以全面理解數(shù)學(xué)和編程任務(wù)。

開(kāi)放性評(píng)估

中文開(kāi)放性評(píng)估

實(shí)驗(yàn)結(jié)果顯示，DeepSeek 67B Chat 模型在基本的中文語(yǔ)言任務(wù)中位于所有模型的第一梯隊(duì)，甚至在中文基礎(chǔ)語(yǔ)言能力方面超過(guò)了最新版本的 GPT-4。在高級(jí)中文推理任務(wù)中，本文的模型得分明顯高于其他中文 LLM，在更復(fù)雜的中文邏輯推理和數(shù)學(xué)計(jì)算中有著卓越性能。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表4 AlignBench 排行榜

英文開(kāi)放性評(píng)估

DeepSeek LLM 67B Chat 在性能上超過(guò)了 LLaMA-2-Chat 70B 等其他開(kāi)源模型，與 GPT-3.5-turbo 相媲美。此外，經(jīng)過(guò) DPO 階段后，DeepSeek LLM 67B Chat 的平均分進(jìn)一步提升，僅次于 GPT-4。這表明?DeepSeek LLM 在多輪開(kāi)放性生成方面具有強(qiáng)大能力。

▲表5 MT-Bench 評(píng)估

保留集評(píng)估

保留集是模型在訓(xùn)練階段未曾接觸到的數(shù)據(jù)集，用于評(píng)估模型在面對(duì)新領(lǐng)域和未見(jiàn)過(guò)的樣本時(shí)的泛化能力。作者采用了多個(gè)基準(zhǔn)任務(wù)和指標(biāo)，包括對(duì)話、數(shù)學(xué)、編程、語(yǔ)言理解等方面的測(cè)試。這些任務(wù)涵蓋了模型需要在實(shí)際應(yīng)用中面對(duì)的各種場(chǎng)景和挑戰(zhàn)。DeepSeek 在各個(gè)階段的保留集評(píng)估中都展現(xiàn)出卓越的性能，驗(yàn)證了其在處理未知任務(wù)和領(lǐng)域時(shí)的強(qiáng)大能力。

安全性評(píng)估

DeepSeek 67B Chat 模型在安全性評(píng)估方面表現(xiàn)良好，其安全性得分高于 ChatGPT 和 GPT-4。在不同的安全測(cè)試類別中，該模型的表現(xiàn)也相對(duì)出色。然而，模型在某些任務(wù)上的表現(xiàn)可能受到數(shù)據(jù)集的局限性影響。例如，初始版本的中文數(shù)據(jù)可能在某些中文特定主題上表現(xiàn)不佳。此外，由于模型主要基于中英文數(shù)據(jù)集，對(duì)其他語(yǔ)言的熟練程度可能相對(duì)較低，需要在實(shí)際應(yīng)用中審慎對(duì)待。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表6 Do-Not-Answer 得分

進(jìn)一步討論

分階段微調(diào)

小型模型在數(shù)學(xué)和代碼數(shù)據(jù)集上需要更長(zhǎng)時(shí)間的微調(diào)，但這將損害模型的對(duì)話能力。為了解決這個(gè)問(wèn)題，作者進(jìn)行了分階段微調(diào)：

第一階段使用所有可用數(shù)據(jù)進(jìn)行微調(diào)；
第二階段專注于使用對(duì)話數(shù)據(jù)進(jìn)行微調(diào)。

表 7 的結(jié)果表明，第二階段不會(huì)損害模型在編程和數(shù)學(xué)方面的熟練程度，同時(shí)降低了重復(fù)行為并增強(qiáng)了指令跟隨的能力。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表7 兩階段微調(diào)結(jié)果

多選題

多選題要求模型不僅具有相應(yīng)的知識(shí)，還要理解選項(xiàng)的含義。在對(duì)齊階段，作者測(cè)試了添加 2000 萬(wàn)個(gè)中文多項(xiàng)選擇問(wèn)題并獲得了如表 8 所示的性能。為防止數(shù)據(jù)污染，作者對(duì) C-Eval 驗(yàn)證集和 CMMLU 測(cè)試集進(jìn)行了去重。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表8 添加多項(xiàng)選擇問(wèn)題數(shù)據(jù)的影響

額外添加的多項(xiàng)選擇問(wèn)題不僅對(duì)中文多項(xiàng)選擇基準(zhǔn)有益，還有助于改善英文基準(zhǔn)，這表明模型解決多選題的能力已經(jīng)得到了增強(qiáng)。然而，用戶在對(duì)話交互中可能不會(huì)認(rèn)為模型變得更加智能，因?yàn)檫@些交互是生成回復(fù)而非解決多項(xiàng)選擇問(wèn)題。

在預(yù)訓(xùn)練中的指令數(shù)據(jù)

作者探討了在預(yù)訓(xùn)練的后期階段引入指令數(shù)據(jù)對(duì)基礎(chǔ)模型性能的影響。他們?cè)陬A(yù)訓(xùn)練的最后 10% 階段整合了包含多項(xiàng)選擇題在內(nèi)的 500 萬(wàn)條指令數(shù)據(jù)，結(jié)果觀察到基礎(chǔ) LLM 模型的性能改進(jìn)。然而，最終結(jié)果幾乎與在 SFT 階段添加相同數(shù)據(jù)時(shí)獲得的結(jié)果相同。因此，盡管這種方法增強(qiáng)了基礎(chǔ)模型在基準(zhǔn)測(cè)試中的性能，但其整體與在預(yù)訓(xùn)練過(guò)程中不引入這些指令數(shù)據(jù)相當(dāng)。

系統(tǒng)提示

這里探討了系統(tǒng)提示對(duì)模型性能的影響。他們采用 LLaMA-2 的系統(tǒng)提示，并稍微修改成為他們的系統(tǒng)提示，明確要求模型以有益、尊重、誠(chéng)實(shí)的方式回答問(wèn)題，同時(shí)禁止包含有害內(nèi)容。

如表 9 所示，作者觀察到一個(gè)有趣的現(xiàn)象，即在引入系統(tǒng)提示時(shí)，7B LLM 的性能略微下降。然而，當(dāng)使用 67B LLM 時(shí)，添加提示導(dǎo)致結(jié)果顯著改善。他們解釋這種差異的原因是更大的模型能更好理解系統(tǒng)提示背后的預(yù)期含義，使它們能夠更有效地遵循指令并生成更出色的回復(fù)。相反，較小的模型難以充分理解系統(tǒng)提示，訓(xùn)練和測(cè)試之間的不一致可能對(duì)它們的性能產(chǎn)生負(fù)面影響。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama

▲表9 添加系統(tǒng)提示的影響

總結(jié)

作者在本文中提出了 DeepSeek LLM，并詳細(xì)解釋了超參數(shù)選擇、縮放規(guī)律以及進(jìn)行的各種微調(diào)嘗試，校準(zhǔn)了以前工作中的縮放規(guī)律，提出了一種新的最優(yōu)模型/數(shù)據(jù)縮放分配策略。通過(guò)縮放規(guī)律的指導(dǎo)，我們使用最佳超參數(shù)進(jìn)行預(yù)訓(xùn)練，并進(jìn)行了更為全面的評(píng)估。

然而，DeepSeek Chat 仍然存在一些已知限制：如在預(yù)訓(xùn)練后缺乏知識(shí)更新、生成非事實(shí)信息以及在某些中文特定主題上性能不佳。此外，模型在其他語(yǔ)言上的熟練程度仍然相對(duì)脆弱，需要謹(jǐn)慎對(duì)待。

目前，該團(tuán)隊(duì)正在為即將推出的 DeepSeek LLM 版本構(gòu)建更大、更完善的數(shù)據(jù)集，希望能在下一版本中改進(jìn)推理、中文知識(shí)、數(shù)學(xué)和編程能力。作者的這一系列努力，也體現(xiàn)了他們要在推動(dòng) NLP 和 AIG 領(lǐng)域的創(chuàng)新和提升模型性能方面長(zhǎng)期努力的承諾。

DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2,llama 文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-787920.html

到了這里，關(guān)于DeepSeek 發(fā)布全新開(kāi)源大模型，數(shù)學(xué)推理能力超越 LLaMA-2的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Mistral AI發(fā)布首個(gè)開(kāi)源MoE模型，魔搭社區(qū)推理微調(diào)最佳實(shí)踐來(lái)啦！
原文：Mistral AI發(fā)布首個(gè)開(kāi)源MoE模型，魔搭社區(qū)推理微調(diào)最佳實(shí)踐來(lái)啦！ - 知乎繼Mistral 7B 后，Mistral AI 近日又放出一記大招——發(fā)布了引爆開(kāi)源社區(qū)的首個(gè) MoE 開(kāi)源模型 Mixtral 8x7B，在 Apache 2.0 許可證下可商用。 Mixtral-8x7B 是一款混合專家模型（ Mixtrue of Experts )，由8個(gè)擁有70億
2024年01月16日
瀏覽(27)
提高LLaMA-7B的數(shù)學(xué)推理能力
這篇文章探討了利用多視角微調(diào)方法提高數(shù)學(xué)推理的泛化能力。數(shù)學(xué)推理在相對(duì)較小的語(yǔ)言模型中仍然是一個(gè)挑戰(zhàn)，許多現(xiàn)有方法傾向于依賴龐大但效率低下的大語(yǔ)言模型進(jìn)行知識(shí)蒸餾。研究人員提出了一種避免過(guò)度依賴大語(yǔ)言模型的新方法，該方法通過(guò)有效利用具有不同注
2024年02月16日
瀏覽(27)
體驗(yàn)訊飛星火認(rèn)知大模型，據(jù)說(shuō)中文能力超越ChatGPT
?? 作者簡(jiǎn)介：大家好，我是阿牛，全棧領(lǐng)域優(yōu)質(zhì)創(chuàng)作者。?? ?? 個(gè)人主頁(yè)：館主阿牛?? ?? 支持我：點(diǎn)贊??+收藏??+留言?? ??格言：迄今所有人生都大寫著失敗，但不妨礙我繼續(xù)向前！?? 5月6號(hào)，科大訊飛發(fā)布了訊飛星火認(rèn)知大模型，據(jù)傳是國(guó)產(chǎn)最強(qiáng)AI，訊飛董事長(zhǎng)在
2024年02月04日
瀏覽(22)
【AIGC】ChatGLM2-6B大模型據(jù)稱推理性能超越Chat4.0
models ChatGLM2-6B 是開(kāi)源中英雙語(yǔ)對(duì)話模型 ChatGLM-6B 的第二代版本，在保留了初代模型對(duì)話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)之上，ChatGLM2-6B 引入了如下新特性：更強(qiáng)大的性能：基于 ChatGLM 初代模型的開(kāi)發(fā)經(jīng)驗(yàn)，我們?nèi)嫔?jí)了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了
2024年02月11日
瀏覽(37)
思維鏈Prompting促進(jìn)大型語(yǔ)言模型的推理能力
論文標(biāo)題：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 論文鏈接：https://arxiv.org/abs/2201.11903 論文來(lái)源：NeurIPS 2022 近來(lái)NLP領(lǐng)域由于語(yǔ)言模型的發(fā)展取得了顛覆性的進(jìn)展，擴(kuò)大語(yǔ)言模型的規(guī)模帶來(lái)了一系列的性能提升，然而單單是擴(kuò)大模型規(guī)模對(duì)于一些具有挑戰(zhàn)性的任
2024年02月01日
瀏覽(21)
CodeGeeX2 模型全新上線，編程助手能力全面升級(jí)！
第二代CodeGeeX代碼生成模型CodeGeeX2-6B已于近日發(fā)布，并在CodeGeeX編程助手插件上全面上線。新模型基于 ChatGLM2-6B 架構(gòu)加入代碼預(yù)訓(xùn)練實(shí)現(xiàn)，精度更高、速度更快、能力更強(qiáng)。下面我們一起來(lái)看一下新版模型給CodeGeeX編程助手帶來(lái)的變化吧：一、代碼生成更快更精準(zhǔn)，問(wèn)答更智
2024年02月14日
瀏覽(23)
英偉達(dá)黃仁勛發(fā)布GB200，比H100推理能力提高30倍，能耗降低25倍，將AI4S能力做成微服務(wù)
「AI 的 iPhone 時(shí)刻已經(jīng)到來(lái)。」黃仁勛在英偉達(dá) GTC 2023 上的金句言猶在耳，這一年，AI 的發(fā)展也印證了其所言非虛。多年來(lái)，伴隨 AI 發(fā)展提速，加之英偉達(dá)的技術(shù)與生態(tài)護(hù)城河難以撼動(dòng)，GTC 已經(jīng)從最初的技術(shù)會(huì)議逐漸升級(jí)為全產(chǎn)業(yè)鏈共同關(guān)注的 AI 行業(yè)盛會(huì)，英偉達(dá)秀出的「
2024年03月27日
瀏覽(36)
每周編輯精選｜微軟開(kāi)源 Orca-Math 高質(zhì)量數(shù)學(xué)數(shù)據(jù)集、清華大學(xué)研究團(tuán)隊(duì)發(fā)布條件去噪擴(kuò)散模型 SPDiff...
Orca-Math 是微軟研究院發(fā)布的數(shù)學(xué)推理模型，該模型展示了較小的專業(yè)模型在特定領(lǐng)域的價(jià)值，它們可以匹配甚至超越更大模型的性能。微軟近期開(kāi)源了用于訓(xùn)練 Orca-Math 的 Orca-Math-200K 數(shù)學(xué)單詞問(wèn)題數(shù)據(jù)集，現(xiàn)已在 hyper.ai 官網(wǎng)提供下載，快來(lái)體驗(yàn)吧！ 3 月 11 日-3 月 15 日，
2024年03月22日
瀏覽(97)
推理還是背誦？通過(guò)反事實(shí)任務(wù)探索語(yǔ)言模型的能力和局限性
最近，語(yǔ)言模型在各種任務(wù)中展現(xiàn)出的令人印象深刻的性能表現(xiàn)，表明它們具備一定程度的抽象推理能力。這些能力是通用且可轉(zhuǎn)移的，還是專門用于預(yù)訓(xùn)練期間接觸到的特定任務(wù)？為了解開(kāi)這些效應(yīng)，本提出了一種基于\\\"反事實(shí)\\\"任務(wù)變體的評(píng)估框架，這些變體偏離了標(biāo)準(zhǔn)任
2024年02月07日
瀏覽(25)
大模型推理最新論文及源碼合集，涵蓋多模態(tài)推理、邏輯推理、數(shù)學(xué)推理
大模型推理技術(shù)的發(fā)展幫我們解決了許多的難題，但如今的大模型在復(fù)雜推理上的表現(xiàn)仍然欠佳，為了突破這一瓶頸，研究者們提出了許多創(chuàng)新性的方法。我整理了其中一部分個(gè)人認(rèn)為很值得學(xué)習(xí)的論文來(lái)和大家分享，涵蓋多模態(tài)推理、邏輯推理、數(shù)學(xué)推理三個(gè)細(xì)分方向，幫
2024年02月06日
瀏覽(24)

<del id="csfbg"></del>

<kbd id="csfbg"></kbd>