国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性)

這篇具有很好參考價值的文章主要介紹了大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

大語言模型對齊(Large Language Model Alignment)是利用大規(guī)模預(yù)訓(xùn)練語言模型來理解它們內(nèi)部的語義表示和計算過程的研究領(lǐng)域。主要目的是避免大語言模型可見的或可預(yù)見的風(fēng)險,比如固有存在的幻覺問題、生成不符合人類期望的文本、容易被用來執(zhí)行惡意行為等。

從必要性上來看,大語言模型對齊可以避免黑盒效應(yīng),提高模型的可解釋性和可控性,指導(dǎo)模型優(yōu)化,確保AI 技術(shù)的發(fā)展不會對社會產(chǎn)生負面影響。因此,大語言模型對齊對AI系統(tǒng)的發(fā)展至關(guān)重要。

目前的大語言模型對齊研究主要分為三個領(lǐng)域:外部對齊、內(nèi)部對齊、可解釋性。我整理了這三個領(lǐng)域的最新論文分享給大家,幫助同學(xué)們掌握大語言模型對齊的最新技術(shù)與研究重點,快速找到新的idea。

全部論文及源代碼看文末

外部對齊(23篇)

非遞歸監(jiān)督

1.Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

強化學(xué)習(xí)利用人類反饋的開放問題和根本限制

簡述:RLHF已成為調(diào)優(yōu)當(dāng)前領(lǐng)先的大型語言模型(LLM)的核心方法。盡管很流行,但是系統(tǒng)地總結(jié)它的缺陷的公開工作相對較少。本文:(1)調(diào)研了RLHF及相關(guān)方法的開放問題和基本局限,(2)概述了在實踐中理解、改進和補充RLHF的技術(shù),(3)提出了審計和披露標(biāo)準,以改進對RLHF系統(tǒng)的社會監(jiān)督。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

2.Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons

基于成對或K選項比較的人類反饋原則強化學(xué)習(xí)

簡述:論文基于人類反饋強化學(xué)習(xí)(RLHF)提供了一個理論框架,證明了在基于學(xué)習(xí)的獎勵模型訓(xùn)練策略時,MLE會失敗,而悲觀的MLE可以在某些覆蓋假設(shè)下提供性能更好的策略。此外,在PL模型下,真實的MLE和將K選比較分解成成對比較的替代MLE都收斂。而且,真實的MLE在漸近意義上更有效率。

3.Secrets of RLHF in Large Language Models Part I: PPO

大語言模型中的RLHF奧秘 第1部分:PPO

簡述:大語言模型通過人類反饋強化學(xué)習(xí)實現(xiàn)與人類的對齊,是實現(xiàn)人工通用智能的重要途徑。但獎勵設(shè)計、環(huán)境交互、智能體訓(xùn)練等方面的挑戰(zhàn)使其穩(wěn)定訓(xùn)練仍然困難。論文通過分析策略優(yōu)化算法內(nèi)部工作機制,提出了改進訓(xùn)練穩(wěn)定性的方法,為大語言模型的對齊提供了新思路。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

  • 4.Guiding Large Language Models via Directional Stimulus Prompting

  • 5.Aligning Large Language Models through Synthetic Feedback

  • 6.Aligning Language Models with Preferences through f-divergence Minimization

  • 7.Scaling Laws for Reward Model Overoptimization

  • 8.Improving Language Models with Advantage-based Offline Policy Gradients

  • 9.RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs

  • 10.LIMA: Less Is More for Alignment

  • 11.SLiC-HF: Sequence Likelihood Calibration with Human Feedback

  • 12.RRHF: Rank Responses to Align Language Models with Human Feedback without tears

  • 13.Preference Ranking Optimization for Human Alignment

  • 14.Training Language Models with Language Feedback at Scale

  • 15.Direct Preference Optimization: Your Language Model is Secretly a Reward Model

  • 16.Training Socially Aligned Language Models on Simulated Social Interactions

  • 17.Chain of Hindsight Aligns Language Models with Feedback

  • 18.RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

可擴展監(jiān)督

1.Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

從零開始用最小人工監(jiān)督實現(xiàn)語言模型的原則驅(qū)動自對齊

簡述:論文提出一種新的自監(jiān)督對齊方法SELF-ALIGN,通過結(jié)合原則推理和大語言模型的生成能力,使AI助手實現(xiàn)自我對齊,僅需要極少的人類監(jiān)督。該方法可以有效解決當(dāng)前依賴監(jiān)督訓(xùn)練和人類反饋的方法中的問題,如成本高、質(zhì)量低等。在LLaMA語言模型上的應(yīng)用證明該方法明顯優(yōu)于當(dāng)前SOTA的AI助手。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

2.Let's Verify Step by Step

一步步驗證

簡述:針對訓(xùn)練可靠的復(fù)雜多步推理的大語言模型,論文比較了結(jié)果監(jiān)督和過程監(jiān)督兩種方法。研究發(fā)現(xiàn),過程監(jiān)督明顯優(yōu)于結(jié)果監(jiān)督,可以獲得更可靠的模型。作者采用過程監(jiān)督和主動學(xué)習(xí)相結(jié)合的方法訓(xùn)練模型,在MATH數(shù)據(jù)集上取得了較好效果,測試集準確率達到78%。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

3.Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate

通過多智能體辯論激發(fā)大語言模型的發(fā)散性思維

簡述:近年大規(guī)模語言模型如ChatGPT在通用語言任務(wù)上表現(xiàn)強大,但在復(fù)雜推理上仍有困難。論文提出多智能體辯論框架來激發(fā)模型的發(fā)散思維,多個智能體以你來我往方式表達觀點,評委管理過程獲得最終解決方案。該框架可以激發(fā)語言模型的思考,有助于需要深度思考的任務(wù)。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

4.Evaluating Superhuman Models with Consistency Checks

評估超人類模型的一致性檢查

簡述:近年來,機器學(xué)習(xí)模型在許多任務(wù)上達到或超過人類水平,如何評估這類“超人類”模型成為一個重要問題。論文提出通過一致性檢查來評估它們,即使無法判斷這類模型決策的正確性,如果決策間存在邏輯矛盾,我們?nèi)钥砂l(fā)現(xiàn)其缺陷。該工作強調(diào)繼續(xù)改進評估方法的重要性,以推動可信賴的超人類AI系統(tǒng)發(fā)展。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

5.Improving Factuality and Reasoning in Language Models through Multiagent Debate

通過多智能體辯論提高語言模型的事實性和推理能力

簡述:論文提出了一種多語言模型互動的“思維社會”方法,多個模型提出并辯論各自的觀點,經(jīng)過多輪達成共識。實驗表明,這種方法可以增強模型的邏輯推理能力,減少錯誤信息。而且這種方法可以直接應(yīng)用于現(xiàn)有模型,并在各種任務(wù)上取得顯著改進。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

內(nèi)部對齊(3篇)

1.Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals

為什么正確的規(guī)范仍無法獲得正確的目標(biāo)?

簡述:目標(biāo)誤推廣是AI系統(tǒng)一個重要問題,它指學(xué)習(xí)算法把訓(xùn)練集表現(xiàn)良好的策略過度推廣到新的環(huán)境,導(dǎo)致非預(yù)期的負面后果。論文通過深度學(xué)習(xí)等實際系統(tǒng)中的例子,展示了這一問題的存在。為避免更強AI系統(tǒng)產(chǎn)生這種問題,我們需要在算法設(shè)計上防范過度推廣,也要增強系統(tǒng)對人類價值的內(nèi)化理解。

2.Goal Misgeneralization in Deep Reinforcement Learning

深度強化學(xué)習(xí)中的目標(biāo)誤推廣

簡述:論文研究了強化學(xué)習(xí)中的一種分布外泛化失敗類型——目標(biāo)誤推廣。當(dāng)強化學(xué)習(xí)代理在分布外保持其能力但追求錯誤目標(biāo)時,就會發(fā)生目標(biāo)誤推廣失敗。作者形式化了能力泛化和目標(biāo)泛化之間的區(qū)別,提供了目標(biāo)誤推廣的首個實證演示,并部分描述了其原因。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

3.Risks from Learned Optimization in Advanced Machine Learning Systems

高級機器學(xué)習(xí)系統(tǒng)中學(xué)習(xí)優(yōu)化的風(fēng)險

簡述:論文認為MESA優(yōu)化的可能性為高級機器學(xué)習(xí)系統(tǒng)的安全性和透明度提出了兩個重要問題。第一,在什么情況下學(xué)習(xí)模型會成為優(yōu)化器,包括在它本不應(yīng)該成為優(yōu)化器的情況下?第二,當(dāng)學(xué)習(xí)模型成為優(yōu)化器時,它的目標(biāo)是什么——它將如何不同于其訓(xùn)練的損失函數(shù)——以及如何實現(xiàn)對齊?在本文中,作者對這兩個主要問題進行了深入分析,并概述了未來研究的主題。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

可解釋性(9篇)

1.LEACE: Perfect linear concept erasure in closed form

LEACE:完美閉式線性概念擦除

簡述:概念擦除是從機器學(xué)習(xí)模型中刪除某個概念的影響,以提高模型的公平性和可解釋性。論文提出了LEACE方法,可以高效并精確地實現(xiàn)線性模型的概念擦除。實驗證明它可以減少語言模型對詞性信息的依賴和模型中的性別偏見,增強機器學(xué)習(xí)模型的安全性、可解釋性和公平性。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

2.Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

從語言模型中獲得真實答案

簡述:論文提出了“推理時干預(yù)”(ITI)技術(shù),旨在增強大語言模型的“誠實度”。ITI 通過在推理時沿少數(shù)注意力頭中的特定方向移動模型激活來實現(xiàn),這種干預(yù)顯著提高了LLaMA模型在TruthfulQA基準測試中的性能。另外,該技術(shù)的數(shù)據(jù)效率很高,雖然像RLHF這樣的方法需要大量標(biāo)注,但ITI 只需要幾百個例子就可以找到真實的方向。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

3.Locating and Editing Factual Associations in GPT

在GPT中定位和編輯事實關(guān)聯(lián)

簡述:論文現(xiàn)Transformer語言模型中存儲和回憶事實性關(guān)聯(lián)的機制對應(yīng)于可定位和直接編輯的中間層計算。通過因果干預(yù)和模型編輯,作者確認了中間層前饋模塊在記憶事實關(guān)聯(lián)方面起關(guān)鍵作用。本文的模型編輯方法在零樣本關(guān)系提取和反事實斷言任務(wù)上都表現(xiàn)出強大的特異性和泛化能力,這說明直接操作中間層計算是模型編輯的一個有效途徑。

大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性),人工智能干貨,深度學(xué)習(xí)干貨,人工智能,大語言模型,AI對齊

  • 4.Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases

  • 5.Toy Models of Superposition

  • 6.Softmax Linear Units

  • 7.Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

  • 8.In-context Learning and Induction Heads

  • 9.A Comprehensive Mechanistic Interpretability Explainer & Glossary

關(guān)注下方《學(xué)姐帶你玩AI》??????

回復(fù)“對齊”獲取全部論文+源代碼合集

碼字不易,歡迎大家點贊評論收藏!文章來源地址http://www.zghlxwxcb.cn/news/detail-743184.html

到了這里,關(guān)于大語言模型對齊技術(shù) 最新論文及源碼合集(外部對齊、內(nèi)部對齊、可解釋性)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 最新基于Citespace、vosviewer、R語言的文獻計量學(xué)可視化分析技術(shù)及全流程文獻可視化SCI論文高效寫作方法

    最新基于Citespace、vosviewer、R語言的文獻計量學(xué)可視化分析技術(shù)及全流程文獻可視化SCI論文高效寫作方法

    文獻計量學(xué)是指用數(shù)學(xué)和統(tǒng)計學(xué)的方法,定量地分析一切知識載體的交叉科學(xué)。它是集數(shù)學(xué)、統(tǒng)計學(xué)、文獻學(xué)為一體,注重量化的綜合性知識體系。特別是,信息可視化技術(shù)手段和方法的運用,可直觀的展示主題的研究發(fā)展歷程、研究現(xiàn)狀、研究熱點和發(fā)展態(tài)勢。Citespace和

    2024年02月09日
    瀏覽(25)
  • 對齊大型語言模型與人類偏好:通過表示工程實現(xiàn)

    對齊大型語言模型與人類偏好:通過表示工程實現(xiàn)

    強化學(xué)習(xí)表現(xiàn)出相當(dāng)復(fù)雜度、對超參數(shù)的敏感性、在訓(xùn)練過程中的不穩(wěn)定性,并需要在獎勵模型和價值網(wǎng)絡(luò)中進行額外的訓(xùn)練,導(dǎo)致了較大的計算成本。為了解決RL方法帶來的上述挑戰(zhàn),提出了幾種計算上輕量級的替代方案,在這些替代方案中,兩個突出的范例包括對比學(xué)習(xí)

    2024年01月24日
    瀏覽(24)
  • 40套計算機畢業(yè)設(shè)計項目合集【含源碼+論文】

    40套計算機畢業(yè)設(shè)計項目合集【含源碼+論文】

    ?? 這兩年開始畢業(yè)設(shè)計和畢業(yè)答辯的要求和難度不斷提升,傳統(tǒng)的java web缺少創(chuàng)新和亮點,往往達不到畢業(yè)答辯的要求,這兩年不斷有學(xué)弟學(xué)妹告訴學(xué)長自己做的java web管理系統(tǒng)達不到老師的要求。 為了大家能夠順利以及最少的精力通過畢設(shè),學(xué)長分享41個優(yōu)質(zhì)java web畢業(yè)設(shè)

    2024年02月10日
    瀏覽(25)
  • OpenAI-ChatGPT最新官方接口《微調(diào)ChatGPT模型》全網(wǎng)最詳細中英文實用指南和教程,助你零基礎(chǔ)快速輕松掌握全新技術(shù)(四)(附源碼)

    OpenAI-ChatGPT最新官方接口《微調(diào)ChatGPT模型》全網(wǎng)最詳細中英文實用指南和教程,助你零基礎(chǔ)快速輕松掌握全新技術(shù)(四)(附源碼)

    Fine-tuning 微調(diào)模型 Learn how to customize a model for your application. 了解如何為應(yīng)用程序自定義模型。 ChatGPT可以幫助用戶使用自己的語料集來訓(xùn)練出一個更加適用于用戶使用場景的準確、可靠的自然語言模型。 ChatGPT的微調(diào)模型技術(shù)主要通過將先前預(yù)訓(xùn)練過的語言模型(如GPT-3.5)作

    2024年02月04日
    瀏覽(29)
  • 【網(wǎng)安AIGC專題10.19】論文6:Java漏洞自動修復(fù)+數(shù)據(jù)集 VJBench+大語言模型、APR技術(shù)+代碼轉(zhuǎn)換方法+LLM和DL-APR模型的挑戰(zhàn)與機會

    【網(wǎng)安AIGC專題10.19】論文6:Java漏洞自動修復(fù)+數(shù)據(jù)集 VJBench+大語言模型、APR技術(shù)+代碼轉(zhuǎn)換方法+LLM和DL-APR模型的挑戰(zhàn)與機會

    本文為 鄒德清教授的《網(wǎng)絡(luò)安全專題》課堂筆記系列 的文章,本次專題主題為大模型。 ISSTA 2023 How Effective Are Neural Networks for Fixing Security Vulnerabilities 評測現(xiàn)有的大模型和基于深度學(xué)習(xí)的自動補丁修復(fù)模型對 Java漏洞修復(fù) 能力的工作 論文很長很系統(tǒng),學(xué)姐讀的很細節(jié)很深入

    2024年02月08日
    瀏覽(98)
  • 【NLP相關(guān)】GPT-X合集:GPT類模型介紹(附相關(guān)論文和Github項目地址)

    【NLP相關(guān)】GPT-X合集:GPT類模型介紹(附相關(guān)論文和Github項目地址)

    ??覺得內(nèi)容不錯的話,歡迎點贊收藏加關(guān)注??????,后續(xù)會繼續(xù)輸入更多優(yōu)質(zhì)內(nèi)容?? ??有問題歡迎大家加關(guān)注私戳或者評論(包括但不限于NLP算法相關(guān),linux學(xué)習(xí)相關(guān),讀研讀博相關(guān)......)?? GPT(Generative Pre-trained Transformer)是一類基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型

    2024年02月01日
    瀏覽(38)
  • ChatGPT 用不了?一文分享國內(nèi)好用大語言模型合集

    ChatGPT 用不了?一文分享國內(nèi)好用大語言模型合集

    作者 :明明如月學(xué)長, CSDN 博客專家,大廠高級 Java 工程師,《性能優(yōu)化方法論》作者、《解鎖大廠思維:剖析《阿里巴巴Java開發(fā)手冊》》、《再學(xué)經(jīng)典:《EffectiveJava》獨家解析》專欄作者。 熱門文章推薦 : (1)《為什么很多人工作 3 年 卻只有 1 年經(jīng)驗?》 (2)《從失

    2024年02月07日
    瀏覽(19)
  • Meta最新模型LLaMA詳解(含部署+論文)

    Meta最新模型LLaMA詳解(含部署+論文)

    來源:投稿 作者:毛華慶 編輯:學(xué)姐 本課程來自深度之眼《大模型——前沿論文帶讀訓(xùn)練營》公開課,部分截圖來自課程視頻。 文章標(biāo)題: LLaMA: Open and Efficient Foundation Language Models 向量空間中詞表示的有效估計 文章鏈接: https://arxiv.org/pdf/2302.13971.pdf 作者: Hugo Touvron等 單

    2024年02月08日
    瀏覽(22)
  • 復(fù)試專業(yè)前沿問題問答合集8-3——RNN、Hadoop、GPT大語言模型

    深度學(xué)習(xí)中的的RNN、Hadoop、GPT大語言模型的原理關(guān)系問答: GPT(Generative Pre-trained Transformer)和RNN(Recurrent Neural Network)是兩種在自然語言處理(NLP)領(lǐng)域廣泛使用的深度學(xué)習(xí)模型。它們在處理序列數(shù)據(jù),尤其是在語言建模和文本生成任務(wù)中,發(fā)揮著重要作用。而Hadoop是一個

    2024年04月11日
    瀏覽(22)
  • 9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼)

    9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼)

    2023年真是文生圖大放異彩的一年,給數(shù)字藝術(shù)界和創(chuàng)意圈注入了新鮮血液。從起初的基礎(chǔ)圖像創(chuàng)作躍進到現(xiàn)在的超逼真效果,這些先進的模型徹底變革了我們制作和享受數(shù)字作品的途徑。 最近,一些大公司比如華為、谷歌、還有Stability AI等人工智能巨頭也沒閑著,紛紛推出

    2024年01月23日
    瀏覽(59)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包