国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Meta發(fā)布LLaMA 2:分析及解讀

這篇具有很好參考價值的文章主要介紹了Meta發(fā)布LLaMA 2:分析及解讀。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Meta發(fā)布了LLaMA的新版本。該版本將被稱為LLaMA 2,并且可以免費用于研究和商業(yè)用途。這是Meta和Microsoft聯(lián)合發(fā)布的成果。

我認為微軟希望壟斷所有第三方LLM,并將它們作為SaaS(軟件即服務(wù))保留在自己的平臺上作為商業(yè)產(chǎn)品?,F(xiàn)在,OpenAI和LLaMA都將成為微軟產(chǎn)品系列的一部分。

新內(nèi)容

將包含預(yù)訓練模型和會話微調(diào)版本的模型權(quán)重和起始代碼。

這意味著不再需要去4chan獲取權(quán)重并構(gòu)建自己的模型。這個模型的架構(gòu)和模型權(quán)重都可以免費用于商業(yè)目的。

該模型有3個版本 — LLaMA-2–7B LLaMA-2–13B LLaMA-2–70B 所有這些模型都將作為基礎(chǔ)模型和相應(yīng)的CHAT模型發(fā)布。因此,總共將會在六個月內(nèi)發(fā)布。

最小的7B和13B版本應(yīng)該適合現(xiàn)代消費級GPU,而較大的70B版本應(yīng)該適合A100 GPU。

默認情況下,上下文長度為4096,但可以增加。

該模型訓練了2萬億個標記。

7B和13B的架構(gòu)與它們的舊版本類似,但70B是一個新發(fā)布的版本。

該模型經(jīng)過針對Chat使用場景的微調(diào),并使用了100,000個樣本和超過一百萬人類偏好進行了監(jiān)督式微調(diào)。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

性能:

這個模型應(yīng)該與大多數(shù)開源模型不相上下。特別是與Falcon-40B(目前的冠軍)相比,該模型在所有任務(wù)上表現(xiàn)明顯更好。

標準測試

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

人工評估結(jié)果

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

人工評估員在約4,000個提示上對模型的不同版本進行了比較,其中包括單一回合和多回合的提示。該評估的95%置信區(qū)間在1%到2%之間。在審查這些結(jié)果時,需要注意人工評估可能存在噪音,這是由于提示集的限制、評估準則的主觀性、個體評估員的主觀性以及比較不同版本的固有難度所導致的。

GPT-4基于的安全性評估

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

為了補充人工評估,我們使用GPT-4對LLaMA-2進行了比較。綠色區(qū)域表示根據(jù)GPT-4的評估,我們的模型表現(xiàn)更優(yōu)。為了排除平局,我們使用勝利次數(shù)/總數(shù)。為了減輕偏見,模型響應(yīng)的展示順序被隨機交換。

安全性評價

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

Llama 2-Chat 與其他開源和閉源模型相比的安全評估結(jié)果。

.

評估員對大約2,000個敵對性提示的模型生成結(jié)果進行了安全性違規(guī)的判斷,其中包括單一回合和多回合的提示。需要注意,這些安全性結(jié)果可能存在來自LLM評估固有偏見的限制,這是由于提示集的限制、評估準則的主觀性和個體評估員的主觀性所導致的。此外,這些安全性評估是使用可能偏向Llama 2-Chat模型的內(nèi)容標準進行的。

訓練方案

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

Llama 2-Chat 的訓練

  • 預(yù)訓練:該過程從使用公開可用的在線資源對Llama 2進行預(yù)訓練開始。 監(jiān)督式微調(diào):通過應(yīng)用監(jiān)督式微調(diào)創(chuàng)建Llama 2-Chat的初始版本。 強化學習:隨后,使用強化學習與人類反饋(RLHF)方法對模型進行迭代優(yōu)化,具體包括拒絕抽樣和近端策略優(yōu)化(PPO)。在整個RLHF階段,累積迭代獎勵建模數(shù)據(jù)與模型增強并行進行是至關(guān)重要的,以確保獎勵模型保持在分布范圍內(nèi)。

訓練時間

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

訓練一個規(guī)模是原來的10倍,模型成本是線性的(GPU小時和碳足跡均為1,720,320/184,320)。然而,在各個任務(wù)領(lǐng)域中的改進幅度從14%(常識推理)到130%(編碼)不等。訓練一個規(guī)模是原來的10倍大的模型主要集中在編碼任務(wù)、數(shù)學問題和AGI評估方面獲得了顯著提升。而在常識推理、世界知識和閱讀理解方面的改進最小。在模型尺寸擴大10倍的情況下,MMLU(平均最小路徑長度)和BBH(平均寬度平衡高度)得分有了適度的提升。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

這個模型發(fā)布了所有關(guān)于訓練、微調(diào)、安全調(diào)優(yōu)、碳足跡等方面的細節(jié)。這個模型很可能在新通過的歐盟合規(guī)要求上得分更高。

輸出模型

采用提示(包括上下文)和模型生成輸出的配對。這對配對根據(jù)響應(yīng)的質(zhì)量得分,包括對響應(yīng)生成的有用性和安全性的評分。這與OpenAI對GPT-3、3.5和4所做的練習相同。雖然沒有明確說明,但我懷疑用于評定LLaMA-2生成的響應(yīng)的方法也是相同的。這是一種強化學習的類型,但是訓練的決策空間更加集中和受限。這也被稱為RLHF(Reinforcement Learning with Human Feedback),旨在更好地訓練模型與人類偏好相一致。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

輸出模型的人工偏好數(shù)據(jù)統(tǒng)計。

輸出模型使用了開源和內(nèi)部收集的人工偏好數(shù)據(jù),上面已列出。二元人工偏好比較包含2個響應(yīng)(選擇和拒絕),它們共享相同的提示,包括先前對話的上下文。否則,所有示例都由一個提示(包括先前對話,如果有的話)和一個響應(yīng)組成,這是輸出模型的輸入。

用于輸出模型的兩個算法:

  1. 近端策略優(yōu)化(Proximal Policy Optimization,PPO)(Schulman等人,2017),是RLHF文獻中的標準算法。
  2. Rejection Sampling fine-tuning:這涉及模型生成的K個樣本輸出,選擇最佳候選者,然后使用選定的輸出進行梯度更新。獲得最高獎勵分數(shù)的樣本被視為黃金標準。

這兩個算法在以下方面不同:

  1. 廣度 — 一個樣本輸出與多個樣本輸出和抽樣
  2. 深度 — 在拒絕抽樣微調(diào)中,只使用選定的樣本來更新模型的梯度。

增量強化學習與人工反饋(Incremental RLHF)的收益

強化學習與人工反饋(RLHF)通過5個步驟(分別標記為RLHF-V1、V2,...,RLHF-V5)進行,逐步使用更多的可用樣本,結(jié)果逐漸改善,顯示了更多微調(diào)數(shù)據(jù)的重要性。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

人工評估

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

Llama 2-Chat模型與開源和閉源模型在約4,000個有益提示上進行了人工評估,每個提示有三個評估者。

其中最重要的部分是與ChatGPT-0301(基于GPT-3和3 turbo的ChatGPT的三月發(fā)布版本)的比較,70B參數(shù)模型以微弱優(yōu)勢擊敗了它。

安全性

雖然安全性可能不是一個令人激動的話題,但我們還是要談?wù)勊T撃P鸵呀?jīng)采取了一些措施來解決模型安全性問題。Meta在訓練這些模型時沒有使用用戶數(shù)據(jù),該模型還試圖解決代詞、身份(宗教、性別、國籍、種族和民族)、以及人口統(tǒng)計偏見等問題。

該模型已經(jīng)進行了真實性、有害性和偏見的基準測試,其得分優(yōu)于以往所有開源模型的版本。較大的模型表現(xiàn)比較小的模型更好。安全性微調(diào)使用了監(jiān)督式安全微調(diào)、強化學習與人類反饋和上下文蒸餾。上下文蒸餾是通過在提示前加入安全性預(yù)先提示“您是一個安全和負責任的助理”來生成更安全的模型響應(yīng)。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

安全性強化學習與人類反饋(RLHF)的影響通過獎勵模型分數(shù)分布來衡量。左圖:Meta安全測試集上生成結(jié)果的安全獎勵模型分數(shù)。樣本在左上角的聚集表明模型的安全性有所改善。右圖:Meta有益性測試集上生成結(jié)果的有益性獎勵模型分數(shù)。

隨著數(shù)據(jù)量的增加,安全性普遍得到改善。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

安全性RLHF的影響通過獎勵模型分數(shù)分布來衡量。左圖:Meta安全性測試集上生成結(jié)果的安全獎勵模型分數(shù)。樣本在左上角的聚集表明模型的安全性有所改善。右圖:Meta有益性測試集上生成結(jié)果的有益性獎勵模型分數(shù)。

總體而言,隨著數(shù)據(jù)量的增加,安全性有所提升。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

上圖:上下文蒸餾分析。左圖:基礎(chǔ)模型中安全RM分數(shù)的分布,添加通用預(yù)提示后的分數(shù),以及基于風險類別的、帶有定制答案模板的預(yù)提示的分數(shù)。盡管通用預(yù)提示可以提高安全RM分數(shù),但帶有定制答案模板的預(yù)提示效果更好。右圖:上下文蒸餾顯著提高了初始得分較低樣本的RM分數(shù),但對初始得分較高的樣本可能產(chǎn)生不利影響。因此,我們僅在能夠提高RM分數(shù)的有針對性樣本上應(yīng)用上下文蒸餾。

需要注意的是,上下文蒸餾可能降低獎勵模型的分數(shù)。因此,我們采用了選擇性的上下文蒸餾(只在RM分數(shù)較低且能提高有效RM分數(shù)時應(yīng)用)。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

左圖:不論模型規(guī)模,Llama 2-Chat的違規(guī)百分比都較低。右圖:不論模型規(guī)模,Llama 2-Chat的安全性和有益性平均評分都較高。

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

單匝和多匝違規(guī)百分比

Meta發(fā)布LLaMA 2:分析及解讀,chatgpt,人工智能,python,圖像處理,llama

每個風險類別的違規(guī)百分比
必須注意的是,這些分類是基于審稿人以及審稿人的差異及其主觀解釋。

總結(jié)

總結(jié)思考

LLaMA是比早期版本更為先進的一步。通過為商業(yè)用途提供權(quán)重,Meta真正支持了創(chuàng)新者和開發(fā)者社區(qū)。此外,這是首次發(fā)布提供了有關(guān)模型、代碼、架構(gòu)、策略、規(guī)劃、功耗和其他訓練成本的所有細節(jié)。我希望能看到最后缺失的推理引擎和其碳足跡的信息。增加這一點可以使這篇論文成為一個幾乎完美的模型發(fā)布示例,希望OpenAI、Microsoft可以向Meta學習,并實現(xiàn)透明化。文章來源地址http://www.zghlxwxcb.cn/news/detail-623888.html

到了這里,關(guān)于Meta發(fā)布LLaMA 2:分析及解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • [AI Meta Llama-3] 最強開源大模型Llama 3發(fā)布!

    [AI Meta Llama-3] 最強開源大模型Llama 3發(fā)布!

    最強開源大模型Llama 3發(fā)布!我們看下重點: 今天,我們介紹Meta Llama 3,這是我們最先進的開源大型語言模型的下一代。 Llama 3模型很快將在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上提供,并得到AMD、AWS、戴爾、英特爾、NVIDIA和高

    2024年04月23日
    瀏覽(31)
  • AI大戰(zhàn),Meta發(fā)布大型語言模型LLaMA

    ChatGPT引爆了AI行業(yè),全球的科技巨頭都先后加入這場AI大戰(zhàn),作為行業(yè)大佬的Meta也不例外,宣布推出大型語言模型LLaMA,加入到了這場由微軟、谷歌等科技巨頭主導的AI“廝殺”中。 LLaMA 模型由 Meta 的FAIR 團隊開發(fā),旨在幫助研究人員和工程師探索人工智能應(yīng)用和相關(guān)功能,在

    2024年02月13日
    瀏覽(23)
  • Meta 最新發(fā)布 LLaMA 2(允許商業(yè)化)

    Meta 最新發(fā)布 LLaMA 2(允許商業(yè)化)

    2023年7月18日,Meta 發(fā)布了Llama 2,包含7B,13B,70B三種參數(shù)(34B暫時還未發(fā)布)。 官方: https://ai.meta.com/llama/ 論文:Llama 2: Open Foundation and Fine-Tuned Chat Models 模型:https://huggingface.co/meta-llama github:https://github.com/facebookresearch/llama Llama 2相比Llama最大亮點之一是允許商業(yè)化,但需要

    2024年02月16日
    瀏覽(32)
  • 免費商用 Meta 發(fā)布開源大語言模型 Llama 2

    免費商用 Meta 發(fā)布開源大語言模型 Llama 2

    Meta 和微軟深度合作,正式推出下一代開源大語言模型 ?Llama 2 ,并宣布免費提供給研究和商業(yè)使用。 ? Llama 2 論文地址:Llama 2: Open Foundation and Fine-Tuned Chat Models 據(jù)介紹,相比于 Llama 1, Llama 2 的訓練數(shù)據(jù)多了 40%,上下文長度是?Llama 1 的 2 倍 ,并采用了分組查詢注意力機制。

    2024年02月15日
    瀏覽(22)
  • Meta發(fā)布升級大模型LLaMA 2:開源可商用

    Meta發(fā)布升級大模型LLaMA 2:開源可商用

    論文地址 :https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/? Github 地址 :https://github.com/facebookresearch/llama LLaMA 2介紹 ? ? ??Meta之前發(fā)布自了半開源的大模型LLaMA,自從LLaMA發(fā)布以來,基于它的擴展模型就層出不窮,尤其是羊駝系列,我最近正在總結(jié)這

    2024年02月16日
    瀏覽(17)
  • 解鎖數(shù)據(jù)分析的神器:ChatGPT引領(lǐng)人工智能革命

    解鎖數(shù)據(jù)分析的神器:ChatGPT引領(lǐng)人工智能革命

    ?? 個人網(wǎng)站:【 海擁】【神級代碼資源網(wǎng)站】【辦公神器】 ?? 基于Web端打造的:??輕量化工具創(chuàng)作平臺 ?? 想尋找共同學習交流的小伙伴,請點擊【全棧技術(shù)交流群】 在當今數(shù)字化時代,數(shù)據(jù)分析成為決策制定和問題解決的關(guān)鍵工具。隨著人工智能(AI)的迅猛發(fā)展,C

    2024年02月05日
    瀏覽(22)
  • LLaMA-META發(fā)布單卡就能跑的大模型

    LLaMA-META發(fā)布單卡就能跑的大模型

    2023年2月25日,Meta使用2048張A100 GPU,花費21天訓練的Transformer大模型LLaMA開源了。 1.4T tokenstakes approximately 21 days 以下是覺得論文中重要的一些要點 1)相對較小的模型也可以獲得不錯的性能 研究者發(fā)現(xiàn)在給定計算能力限制的情況下,最好的性能并不是來源于更大的模型,而是來

    2023年04月08日
    瀏覽(23)
  • 淺談AI人工智能ChatGpt提升競彩足球分析準確率最高的分析軟件

    淺談AI人工智能ChatGpt提升競彩足球分析準確率最高的分析軟件

    隨著科技的不斷進步,人工智能正在扮演著越來越重要的角色。在體育領(lǐng)域,特別是足球競猜中,AI人工智能ChatGpt正以其卓越的分析能力引起了廣泛的關(guān)注。作為一款以大數(shù)據(jù)分析為基礎(chǔ)的分析軟件,AI人工智能ChatGpt不僅可以提供準確的數(shù)據(jù)預(yù)測,還能幫助用戶提高競彩足球

    2024年02月10日
    瀏覽(17)
  • 運用AI人工智能ChatGpt提升競彩足球分析準確率最高的分析軟件

    運用AI人工智能ChatGpt提升競彩足球分析準確率最高的分析軟件

    AI人工智能ChatGpt:提升競彩足球分析準確率的最強大腦 傳統(tǒng)的足球競猜往往會受到諸多因素的影響,而AI人工智能ChatGpt則能夠通過分析海量的數(shù)據(jù),快速準確地預(yù)測比賽結(jié)果。無論是球隊的實力、戰(zhàn)術(shù)的運用還是球員的狀態(tài),ChatGpt都能夠憑借其強大的計算能力,對每個因素

    2024年02月16日
    瀏覽(20)
  • Python+ChatGPT,Python與ChatGPT結(jié)合進行數(shù)據(jù)分析、自動生成代碼、人工智能建模、論文高效撰寫等

    熟練地掌握ChatGPT4.0在數(shù)據(jù)分析、自動生成代碼等方面的強大功能,同時更加系統(tǒng)地學習人工智能(包括傳統(tǒng)機器學習、深度學習等)的基礎(chǔ)理論知識,以及具體的代碼實現(xiàn)方法, 掌握ChatGPT4.0在科研工作中的各種使用方法與技巧,以及人工智能領(lǐng)域經(jīng)典機器學習算法(BP神經(jīng)

    2024年01月19日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包