Meta發(fā)布了LLaMA的新版本。該版本將被稱為LLaMA 2,并且可以免費用于研究和商業(yè)用途。這是Meta和Microsoft聯(lián)合發(fā)布的成果。
我認為微軟希望壟斷所有第三方LLM,并將它們作為SaaS(軟件即服務(wù))保留在自己的平臺上作為商業(yè)產(chǎn)品?,F(xiàn)在,OpenAI和LLaMA都將成為微軟產(chǎn)品系列的一部分。
新內(nèi)容
將包含預(yù)訓練模型和會話微調(diào)版本的模型權(quán)重和起始代碼。
這意味著不再需要去4chan獲取權(quán)重并構(gòu)建自己的模型。這個模型的架構(gòu)和模型權(quán)重都可以免費用于商業(yè)目的。
該模型有3個版本 — LLaMA-2–7B LLaMA-2–13B LLaMA-2–70B 所有這些模型都將作為基礎(chǔ)模型和相應(yīng)的CHAT模型發(fā)布。因此,總共將會在六個月內(nèi)發(fā)布。
最小的7B和13B版本應(yīng)該適合現(xiàn)代消費級GPU,而較大的70B版本應(yīng)該適合A100 GPU。
默認情況下,上下文長度為4096,但可以增加。
該模型訓練了2萬億個標記。
7B和13B的架構(gòu)與它們的舊版本類似,但70B是一個新發(fā)布的版本。
該模型經(jīng)過針對Chat使用場景的微調(diào),并使用了100,000個樣本和超過一百萬人類偏好進行了監(jiān)督式微調(diào)。
性能:
這個模型應(yīng)該與大多數(shù)開源模型不相上下。特別是與Falcon-40B(目前的冠軍)相比,該模型在所有任務(wù)上表現(xiàn)明顯更好。
標準測試
人工評估結(jié)果
人工評估員在約4,000個提示上對模型的不同版本進行了比較,其中包括單一回合和多回合的提示。該評估的95%置信區(qū)間在1%到2%之間。在審查這些結(jié)果時,需要注意人工評估可能存在噪音,這是由于提示集的限制、評估準則的主觀性、個體評估員的主觀性以及比較不同版本的固有難度所導致的。
GPT-4基于的安全性評估
為了補充人工評估,我們使用GPT-4對LLaMA-2進行了比較。綠色區(qū)域表示根據(jù)GPT-4的評估,我們的模型表現(xiàn)更優(yōu)。為了排除平局,我們使用勝利次數(shù)/總數(shù)。為了減輕偏見,模型響應(yīng)的展示順序被隨機交換。
安全性評價
Llama 2-Chat 與其他開源和閉源模型相比的安全評估結(jié)果。
.
評估員對大約2,000個敵對性提示的模型生成結(jié)果進行了安全性違規(guī)的判斷,其中包括單一回合和多回合的提示。需要注意,這些安全性結(jié)果可能存在來自LLM評估固有偏見的限制,這是由于提示集的限制、評估準則的主觀性和個體評估員的主觀性所導致的。此外,這些安全性評估是使用可能偏向Llama 2-Chat模型的內(nèi)容標準進行的。
訓練方案
Llama 2-Chat 的訓練
- 預(yù)訓練:該過程從使用公開可用的在線資源對Llama 2進行預(yù)訓練開始。 監(jiān)督式微調(diào):通過應(yīng)用監(jiān)督式微調(diào)創(chuàng)建Llama 2-Chat的初始版本。 強化學習:隨后,使用強化學習與人類反饋(RLHF)方法對模型進行迭代優(yōu)化,具體包括拒絕抽樣和近端策略優(yōu)化(PPO)。在整個RLHF階段,累積迭代獎勵建模數(shù)據(jù)與模型增強并行進行是至關(guān)重要的,以確保獎勵模型保持在分布范圍內(nèi)。
訓練時間
訓練一個規(guī)模是原來的10倍,模型成本是線性的(GPU小時和碳足跡均為1,720,320/184,320)。然而,在各個任務(wù)領(lǐng)域中的改進幅度從14%(常識推理)到130%(編碼)不等。訓練一個規(guī)模是原來的10倍大的模型主要集中在編碼任務(wù)、數(shù)學問題和AGI評估方面獲得了顯著提升。而在常識推理、世界知識和閱讀理解方面的改進最小。在模型尺寸擴大10倍的情況下,MMLU(平均最小路徑長度)和BBH(平均寬度平衡高度)得分有了適度的提升。
這個模型發(fā)布了所有關(guān)于訓練、微調(diào)、安全調(diào)優(yōu)、碳足跡等方面的細節(jié)。這個模型很可能在新通過的歐盟合規(guī)要求上得分更高。
輸出模型
采用提示(包括上下文)和模型生成輸出的配對。這對配對根據(jù)響應(yīng)的質(zhì)量得分,包括對響應(yīng)生成的有用性和安全性的評分。這與OpenAI對GPT-3、3.5和4所做的練習相同。雖然沒有明確說明,但我懷疑用于評定LLaMA-2生成的響應(yīng)的方法也是相同的。這是一種強化學習的類型,但是訓練的決策空間更加集中和受限。這也被稱為RLHF(Reinforcement Learning with Human Feedback),旨在更好地訓練模型與人類偏好相一致。
輸出模型的人工偏好數(shù)據(jù)統(tǒng)計。
輸出模型使用了開源和內(nèi)部收集的人工偏好數(shù)據(jù),上面已列出。二元人工偏好比較包含2個響應(yīng)(選擇和拒絕),它們共享相同的提示,包括先前對話的上下文。否則,所有示例都由一個提示(包括先前對話,如果有的話)和一個響應(yīng)組成,這是輸出模型的輸入。
用于輸出模型的兩個算法:
- 近端策略優(yōu)化(Proximal Policy Optimization,PPO)(Schulman等人,2017),是RLHF文獻中的標準算法。
- Rejection Sampling fine-tuning:這涉及模型生成的K個樣本輸出,選擇最佳候選者,然后使用選定的輸出進行梯度更新。獲得最高獎勵分數(shù)的樣本被視為黃金標準。
這兩個算法在以下方面不同:
- 廣度 — 一個樣本輸出與多個樣本輸出和抽樣
- 深度 — 在拒絕抽樣微調(diào)中,只使用選定的樣本來更新模型的梯度。
增量強化學習與人工反饋(Incremental RLHF)的收益
強化學習與人工反饋(RLHF)通過5個步驟(分別標記為RLHF-V1、V2,...,RLHF-V5)進行,逐步使用更多的可用樣本,結(jié)果逐漸改善,顯示了更多微調(diào)數(shù)據(jù)的重要性。
人工評估
Llama 2-Chat模型與開源和閉源模型在約4,000個有益提示上進行了人工評估,每個提示有三個評估者。
其中最重要的部分是與ChatGPT-0301(基于GPT-3和3 turbo的ChatGPT的三月發(fā)布版本)的比較,70B參數(shù)模型以微弱優(yōu)勢擊敗了它。
安全性
雖然安全性可能不是一個令人激動的話題,但我們還是要談?wù)勊T撃P鸵呀?jīng)采取了一些措施來解決模型安全性問題。Meta在訓練這些模型時沒有使用用戶數(shù)據(jù),該模型還試圖解決代詞、身份(宗教、性別、國籍、種族和民族)、以及人口統(tǒng)計偏見等問題。
該模型已經(jīng)進行了真實性、有害性和偏見的基準測試,其得分優(yōu)于以往所有開源模型的版本。較大的模型表現(xiàn)比較小的模型更好。安全性微調(diào)使用了監(jiān)督式安全微調(diào)、強化學習與人類反饋和上下文蒸餾。上下文蒸餾是通過在提示前加入安全性預(yù)先提示“您是一個安全和負責任的助理”來生成更安全的模型響應(yīng)。
安全性強化學習與人類反饋(RLHF)的影響通過獎勵模型分數(shù)分布來衡量。左圖:Meta安全測試集上生成結(jié)果的安全獎勵模型分數(shù)。樣本在左上角的聚集表明模型的安全性有所改善。右圖:Meta有益性測試集上生成結(jié)果的有益性獎勵模型分數(shù)。
隨著數(shù)據(jù)量的增加,安全性普遍得到改善。
安全性RLHF的影響通過獎勵模型分數(shù)分布來衡量。左圖:Meta安全性測試集上生成結(jié)果的安全獎勵模型分數(shù)。樣本在左上角的聚集表明模型的安全性有所改善。右圖:Meta有益性測試集上生成結(jié)果的有益性獎勵模型分數(shù)。
總體而言,隨著數(shù)據(jù)量的增加,安全性有所提升。
上圖:上下文蒸餾分析。左圖:基礎(chǔ)模型中安全RM分數(shù)的分布,添加通用預(yù)提示后的分數(shù),以及基于風險類別的、帶有定制答案模板的預(yù)提示的分數(shù)。盡管通用預(yù)提示可以提高安全RM分數(shù),但帶有定制答案模板的預(yù)提示效果更好。右圖:上下文蒸餾顯著提高了初始得分較低樣本的RM分數(shù),但對初始得分較高的樣本可能產(chǎn)生不利影響。因此,我們僅在能夠提高RM分數(shù)的有針對性樣本上應(yīng)用上下文蒸餾。
需要注意的是,上下文蒸餾可能降低獎勵模型的分數(shù)。因此,我們采用了選擇性的上下文蒸餾(只在RM分數(shù)較低且能提高有效RM分數(shù)時應(yīng)用)。
左圖:不論模型規(guī)模,Llama 2-Chat的違規(guī)百分比都較低。右圖:不論模型規(guī)模,Llama 2-Chat的安全性和有益性平均評分都較高。
單匝和多匝違規(guī)百分比
每個風險類別的違規(guī)百分比
必須注意的是,這些分類是基于審稿人以及審稿人的差異及其主觀解釋。
總結(jié)
總結(jié)思考文章來源:http://www.zghlxwxcb.cn/news/detail-623888.html
LLaMA是比早期版本更為先進的一步。通過為商業(yè)用途提供權(quán)重,Meta真正支持了創(chuàng)新者和開發(fā)者社區(qū)。此外,這是首次發(fā)布提供了有關(guān)模型、代碼、架構(gòu)、策略、規(guī)劃、功耗和其他訓練成本的所有細節(jié)。我希望能看到最后缺失的推理引擎和其碳足跡的信息。增加這一點可以使這篇論文成為一個幾乎完美的模型發(fā)布示例,希望OpenAI、Microsoft可以向Meta學習,并實現(xiàn)透明化。文章來源地址http://www.zghlxwxcb.cn/news/detail-623888.html
到了這里,關(guān)于Meta發(fā)布LLaMA 2:分析及解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!