国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AIGC 語言大模型研究報告

這篇具有很好參考價值的文章主要介紹了AIGC 語言大模型研究報告。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

AIGC 研究報告

這份報告可以被劃分為兩大部分。

  • 第一部分集中于ChatGPT的發(fā)展和運作原理,為了增強理解,我們將先探討自然語言處理的歷史發(fā)展。
  • 第二部分主要聚焦于由大模型引領的新的研究領域,并深入介紹在每個領域中可以進行的具體研究工作及思路。同時,將討論作為一個學生,如何基于這些新領域快速產(chǎn)出高質(zhì)量的論文成果。

一、chatgpt實現(xiàn)思路

chatgpt任務類型:自回歸的文字接龍游戲
AIGC 語言大模型研究報告
AIGC 語言大模型研究報告
AIGC 語言大模型研究報告

設想一下,如果你想訓練一個可以和你對話的語言模型,你會分成哪幾步?
開卷有益”階段:讓ChatGPT對海量互聯(lián)網(wǎng)文本做單字接龍,以擴充模型的詞匯量、語言知識、世界的信息與知識。使ChatGPT從“啞巴嬰兒”變成“腦容量超級大的語言強者”。
模板規(guī)范”階段:讓ChatGPT對優(yōu)質(zhì)對話范例做單字接龍,以規(guī)范回答的對話模式和對話內(nèi)容。使ChatGPT變成“懂規(guī)矩的博學語言強者”。
創(chuàng)意引導”階段:讓ChatGPT根據(jù)人類對它生成答案的好壞評分來調(diào)節(jié)模型。以引導它生成人類認可的創(chuàng)意回答。使ChatGPT變成“既懂規(guī)矩又會試探的博學強者”

chatgpt第一步:開卷有益

AIGC 語言大模型研究報告

人類幾十年的探索:如何讓機器理解理解自然語言(如何用向量的方式來更好的表達自然語言呢?)

想要知道如何教會模型怎么說話的,我們需要了解下自然語言理解的發(fā)展歷程。自然語言理解(Natural Language Understanding, NLU)的發(fā)展歷程可以追溯到計算機科學的早期階段,跨越了幾十年的時間,其中發(fā)生了許多關鍵的技術轉(zhuǎn)折和模型創(chuàng)新。以下是該領域發(fā)展的一些主要階段:
1. 符號主義和規(guī)則系統(tǒng)(1950s-1980s)
自然語言理解最早是作為人工智能(AI)的一個子領域而存在的。在那個時期,自然語言處理(NLP)主要依賴于手工制定的規(guī)則和符號邏輯。這些規(guī)則可以使計算機“理解”語句的語法和語義,但是對于復雜、模糊或者語境相關的語言,這些系統(tǒng)往往不能很好地處理。

2. 統(tǒng)計方法和機器學習(1990s-2000s)
在這個階段,隨著計算能力的提升和大規(guī)模文本數(shù)據(jù)集的出現(xiàn),NLP開始轉(zhuǎn)向統(tǒng)計方法和機器學習。這種方法通過對大規(guī)模語料庫的統(tǒng)計分析,預測單詞、短語或句子的概率分布,使得自然語言處理的性能得到了顯著提高。比如隱馬爾科夫模型(HMM)、最大熵模型、條件隨機場(CRF)等在詞性標注、命名實體識別、句法分析等任務中得到了廣泛應用。

3. 深度學習和詞嵌入(2010s)
2010年代初,隨著深度學習技術的崛起,自然語言處理領域出現(xiàn)了顯著的變革。詞嵌入模型如Word2Vec和GloVe的提出,實現(xiàn)了詞匯語義的向量化表示,極大地推動了NLP領域的發(fā)展。另外,循環(huán)神經(jīng)網(wǎng)絡(RNN)和長短期記憶網(wǎng)絡(LSTM)等模型的出現(xiàn),使得模型可以處理序列數(shù)據(jù),從而可以捕捉語言中的長距離依賴關系。

4. 預訓練語言模型(2018s-現(xiàn)在)
自2018年起,預訓練語言模型(Pretrained Language Models, PLMs)引領了NLP領域的新一輪革新。如OpenAI的GPT系列模型,Google的BERT、T5等模型,通過在大規(guī)模語料庫上預訓練,學習到豐富的語言知識,并通過遷移學習應用到各種下游任務,顯著提升了NLP的性能。此外,Transformer架構也由于其高效的并行計算和自注意力(Self-Attention)機制,成為了預訓練模型的核心組件。

從技術角度分析,我們可以將深度學習和大模型的發(fā)展歷程分為探索階段、歷史轉(zhuǎn)折、預訓練階段這三個階段。

1.探索階段

1.1 one-hot編碼

我愛西電啦啦啦
計算詞表:
AIGC 語言大模型研究報告
編碼:
我:[1,0,0,0,0]
愛:[0,1,0,0,0]
西:[0,0,1,0,0]
電:[0,0,0,1,0]
啦:[0,0,0,0,1]
啦:[0,0,0,0,1]
啦:[0,0,0,0,1]
存在問題:
語義關系無法表示
稀疏表示,對于詞表大的,代價極大

1.2神經(jīng)網(wǎng)絡的編碼方式

2010年代初,為了解決One-Hot編碼的問題,研究人員提出了Word2Vec。
問題:
無法處理單詞的多義性
缺乏對詞序的處理
無法處理未出現(xiàn)過的單詞(OOV問題)
需要大量的計算資源

AIGC 語言大模型研究報告

1.3 RNN

為了表示詞與詞之間的序列關系。
問題:
長期依賴問題
梯度消失和梯度爆炸
無法并行計算
AIGC 語言大模型研究報告

2.歷史轉(zhuǎn)折點:Transformer(語言大模型的基礎)

2017年,Google推出Transformer,利用Attention完全替代過往深度學習中的循環(huán)網(wǎng)絡和卷積網(wǎng)絡結(jié)構,直白地展現(xiàn)出了“大一統(tǒng)模型”的野心,"Attention is ALL you need"也成了一個玩不爛的梗。
AIGC 語言大模型研究報告

如何解決上面問題的:在Transformer模型中,embeding首先通過嵌入層得到詞嵌入,然后通過位置編碼添加位置信息,得到模型的輸入表示。然后,這個輸入表示被復制三份,分別通過三個不同的線性層得到查詢、鍵和值。

AIGC 語言大模型研究報告
這個公式的主要目的是進行縮放(Scaling)。這是因為當維度dk較大時,點積的結(jié)果可能會變得非常大,這樣經(jīng)過softmax函數(shù)后,得到的概率分布可能會非常陡峭,即大部分的概率集中在一個或幾個元素上,這會導致梯度變小,影響模型的訓練。而除以dk的平方根可以使點積的結(jié)果落在一個相對穩(wěn)定的區(qū)域,使得概率分布更加平滑,有利于模型的訓練。

AIGC 語言大模型研究報告

3.預訓練階段:Encoder 、Decoder、Encoder-Decoder:Bert、GPT、T5

AIGC 語言大模型研究報告

3.1 時間線

AIGC 語言大模型研究報告

3.2 GPT1

(1)GPT1的設計思想

在CV里,pre-training + fine-tune的方式盛行已久:先用海量有標注的數(shù)據(jù)集,通過有監(jiān)督的訓練生成一個預訓練模型,然后通過下游任務,在這個模型上做微調(diào)。但是在NLP中,這個方式一直很難做起來,原因是:

  • 缺乏大量標注好的文本數(shù)據(jù)集
  • 比起圖像信息,文字的信息更難被模型理解

Transformer出世后,模型對文字上下文的理解能力得到顯著增強,在這一鋪墊下,GPT1誕生了,它的整體設計思路如下:

AIGC 語言大模型研究報告

  • 階段一、首先,用無標注的數(shù)據(jù)(可以理解為一段普通的文字)訓練一個預訓練模型。在這個環(huán)節(jié)里,我們培養(yǎng)模型文字接龍的能力,也就是給定前k個詞,模型能預測出第k+1個詞。(pre-training)。
  • 階段二、然后,在模型能夠理解文字含義的基礎上,用有標注的數(shù)據(jù)訓練模型去定向做一些下游任務。例如文本分類,文本相似性比較等。有標注的數(shù)據(jù)集是遠小于無標注數(shù)據(jù)集的,在這個環(huán)節(jié),我們只是對模型做了一些微小的調(diào)整。(fine-tuning)。
(2)GPT1:Pre-training

確定好了總體設計思想,接下來就是詳細的技術實踐了。GPT1的預訓練模型基本遵循Transformer Decode部分的結(jié)構,去除掉和Encoder做cross-attention的部分,如下圖:
AIGC 語言大模型研究報告
觀察Decoder和Encoder部分的Attention,可以發(fā)現(xiàn):

  • Decoder部分采用Masked-Attention(有遮蓋的注意力機制,每個詞只能看到它的上文)
  • Encoder部分采用的是普通Attention(每個詞可以同時看到上下文)
    AIGC 語言大模型研究報告
    AIGC 語言大模型研究報告
(3)GPT1:Fine-tune

有了一個預訓練模型,我們就可以做fine-tune了。在這里,我們讓模型做4種有監(jiān)督的學習:

  • 分類(Classification):對本文進行分類。比如給定一段文字,判斷表達了積極/消極情感。
  • 文本蘊含(Entailment):給定premise,判斷這個premise是否支持一個hypothesis。例如:premise為“我在周六早上被鬧鐘鬧醒,然后打開了電腦”,是否能夠推出“一個打工人在周末起早來打工”?
  • 相似性(Similarity):給定兩段文本,判斷它們表示的意思是否相似。
  • 多選題(Multiple Choice):給定一段文本和若干個答案,判斷正確答案。
    前文說過,在fine-tune階段,我們希望能夠盡量減少模型架構的改動,因此,論文中采用了如下方法,對這四種監(jiān)督任務的輸入輸出做了統(tǒng)一:
    AIGC 語言大模型研究報告
(4)Bert VS GPT1

GPT 使用的是 Transformer 的解碼器結(jié)構,它是單向的,也就是說,每個詞只能看到它之前的詞。
BERT 使用的是 Transformer 的編碼器結(jié)構,它是雙向的,也就是說,每個詞能夠同時看到它前面和后面的詞。

GPT 的預訓練目標是語言建模,即預測下一個詞是什么。
BERT 的預訓練目標包括遮蔽語言建模(Masked Language Model, MLM)和下一句預測(Next Sentence Prediction, NSP)。MLM 任務是隨機遮蔽輸入中的一些詞,然后預測這些被遮蔽的詞。NSP 任務是預測給定的兩個句子是否是連續(xù)的。

GPT 的優(yōu)點是預訓練和微調(diào)階段的目標一致,都是語言建模,這使得預訓練階段學習的知識可以更好地遷移到下游任務。但它的缺點是由于只能使用左側(cè)的上下文,因此對于一些需要理解全局上下文的任務,如問答、語義角色標注等,可能性能較差。
BERT 的優(yōu)點是由于使用了雙向的上下文,因此可以更好地理解語義和捕捉長距離依賴,對于各種任務都有很好的性能。但它的缺點是預訓練和微調(diào)階段的目標不一致,預訓練階段是預測被遮蔽的詞,而微調(diào)階段的任務通常不涉及這種預測,這可能會導致預訓練階段學習的知識不能完全遷移到下游任務。

GPT1的模型參數(shù)為L=12,H=768,A=12,這個設置和后來Bert-Base一模一樣,但后者的效果要好上很多。原因之一是,GPT采用Masked-Attention,對模型和訓練數(shù)據(jù)的要求會更高,因為模型能讀到的信息只有上文。而采用普通Attention的Bert在訓練階段就能同時讀到上下文。這個性質(zhì)決定了GPT模型越來越大的趨勢。但是,長遠來看,Masked-Attention是push模型更好理解文字的重要手段,畢竟在現(xiàn)實中,我們更希望培養(yǎng)模型知上文補下文,而不是單純地做完形填空。
AIGC 語言大模型研究報告

3.3 zero-shot:GPT2(通用模型的開端)

Encoder VS Decoder,Bert VS GPT1,戰(zhàn)火已經(jīng)拉開,但是此時GPT1仍處在劣勢。前面說過,基于Decoder的模型,模型和數(shù)據(jù)量越大,效果越好。但如果只做到這一點,從技術上來說又太遜色了,性價比也不高。因此,openAI從訓練數(shù)據(jù)上進行改進,引入了zero-shot這一創(chuàng)新點,GPT2就誕生了。

GPT2的核心思想是:只要我的數(shù)據(jù)夠多夠好,只要我的模型夠大夠強。我可以直接去掉fine-tune,訓練出一個通用的模型。

要了解這一點,我們先來看Zero-shot,One-shot和Few-shot的區(qū)別:

Zero-shot:在這種情況下,我們只給出任務描述和任務提示,不提供任何樣例。例如:

  • 任務描述:回答問題。
  • 任務提示:“誰是美國的第一任總統(tǒng)?”

One-shot:在這種情況下,我們給出任務描述,一個樣例,和任務提示。例如:

  • 任務描述:回答問題。
  • 樣例:問:“誰是美國的第一任總統(tǒng)?” 答:“喬治·華盛頓?!?/li>
  • 任務提示:問:“誰寫了《哈姆雷特》?”

Few-shot:在這種情況下,我們給出任務描述,若干個樣例,和任務提示。例如:

  • 任務描述:回答問題。
  • 樣例1:問:“誰是美國的第一任總統(tǒng)?” 答:"喬治·華盛頓。 "
  • 樣例2:問:“誰寫了《哈姆雷特》?” 答:“莎士比亞?!?/li>
  • 樣例3:問:“誰發(fā)現(xiàn)了引力定律?” 答:“艾薩克·牛頓?!?/li>
  • 任務提示:問:“誰提出了相對論?”

GPT2希望通過喂給模型Zero-shot類型的樣本,不告訴模型“做什么”,“怎么做”,讓模型自己去體會。但是,你總不能讓所有的數(shù)據(jù)都長成圖例里Zero-shot那樣吧,那和去標注數(shù)據(jù)有什么區(qū)別?所以,這時候,語言的魅力就來了。一段普通的文字里,可能已經(jīng)蘊含了“任務描述”、“任務提示”和“答案”這些關鍵信息。比如,我想做英法文翻譯這件事,那么我從網(wǎng)上爬取的資料里可能有這樣的內(nèi)容:
AIGC 語言大模型研究報告

如果我把這樣的文本喂給GPT,它是不是就能在學習文字接龍的過程里,領悟到英法互譯這一點?如果我的數(shù)據(jù)集又多又棒,那GPT自主揣摩的能力是不是就能更強?

所以,GPT2在訓練數(shù)據(jù)上,玩出了花樣。它從著名的在線社區(qū)Reddit上爬取訓練數(shù)據(jù)(數(shù)據(jù)具有一定的問答特性),并按社區(qū)用戶的投票結(jié)果篩選出優(yōu)質(zhì)的內(nèi)容。在這個方式下,訓練出了1.5B的GPT2,效果基本與Bert差不多。從實用性的角度上,GPT2并沒有帶來突破,但是,zero-shot的訓練方式,卻有效證明了NLP領域訓練出一個完全通用模型的可行性,這一刻開始,LLM走AIGC的路初見萌芽,因為整個訓練流程看起來就像是模型自主學習知識。

3.3 大力出奇跡的奇跡:GPT3

Zero-shot的方式被GPT2認證可行后,openAI就不得不開始考慮模型是否能真正做到強大了,畢竟現(xiàn)在只是和Bert持平而已。這一刻openAI開始悟過來,既然LLM要一路走到底,既然模型之大避免不了,那不如來得更徹底一些。GPT3沿用了去除fine-tune,只做通用模型的思路,同時技術上小做替換(sparse Transformer),然后在訓練數(shù)據(jù)中引入Few-shot(畢竟完全不給模型任何顯性提示,效果確實沒達到預期),最終生成了一個大小高達175B的龐然大物,當然效果也是一騎絕塵的。
AIGC 語言大模型研究報告

簡單總結(jié):
1、GPT的核心思想是:在NLP領域做pre-traning + fine-tune的框架,解決現(xiàn)實中缺乏文本標注的問題。
2、GPT基于Tranformer Decoder,Bert基于Transformer Encoder。在訓練階段,GPT只能看見上文,Bert可以看見上下文。這也注定了GPT需要把模型做大,訓練數(shù)據(jù)做豐富,才能達到超越Bert的效果。
3、從GPT2到GPT3,Zero-shot和Few-shot的方式被證明可以使得模型能夠去除fine-tune部分,訓練一個通用的語言模型。

chatgpt第二步:引導模型按照人類的意圖(intention)說話(模板規(guī)范)

GPT3模型的有效性也自此讓openAI在LLM實現(xiàn)AGI(Artificial General Intelligence)的方向堅定不移。GPT3是一個“詞語接龍”類模型,即給定上文,它能寫出make sense的下文,當然也能用來做各類問答。

此時,模型學會了說話。但它的回答可能并不令你滿意,即沒有對齊你的意圖(aligin to your intention)。
例如:
你希望是“今天天氣真不錯,我在家里睡懶覺?!?br> 你老板希望是“今天天氣真不錯,大家一起來加班。”
你老媽希望是“今天天氣真不錯,我娃必須去擦地?!?br> 為了讓模型對齊人類意圖,人類將模型這三句話重新送入模型,做有監(jiān)督的微調(diào)。
也就是利用高質(zhì)量數(shù)據(jù)對模型再次訓練
AIGC 語言大模型研究報告

GPT3.5, 與GPT3原理基本一致,在訓練數(shù)據(jù)上,引入codex數(shù)據(jù)集在GPT3上做微調(diào),所以在chatGPT中,也能發(fā)現(xiàn)其具備對代碼的解析能力。

GPT-SFT(Supervised Fine-Tuning on GPT), 基于GPT的有監(jiān)督微調(diào),則是這里要講述的重點?;仡櫟谝徽拢珿PT3.5已經(jīng)是一個文字接龍好手了,并且由于看過足夠多的資料,它能保證基本的回答質(zhì)量。但它仍不夠驚艷,因為它只是按照所學回答問題,而在貼合人類意圖上還有所欠缺,也就是,還不夠“類人”。

解決這個問題的想法,暴力又簡單,那就是標數(shù)據(jù),讓self-supervised模式訓練出來的GPT,也經(jīng)過supervised的微調(diào),直接了當?shù)母嬖V它,人類想要什么回答。openAI雇傭了40名標注人員,在SFT階段共標注13k的(prompt, completion)對問答數(shù)據(jù),其中prompt包含如下類型:

  • Plain:讓標注人員不受約束,隨意寫一些問題
  • Few-shot: 讓標注人員按照Instruction: (prompt, completion)的方式進行標注。例如:請做翻譯:
    (薯條->French)
  • User-based:讓標注人員從openAI
    API的請求列表用例中,找一些問題進行標注。例如Generation類-請對下文做總結(jié),Branstorming類-請列出保持職業(yè)熱情的5種方法等。

有了標注數(shù)據(jù),我們就可以對GPT進行微調(diào),在論文中,一組(prompt, completion)也被稱為demonstration。
AIGC 語言大模型研究報告
AIGC 語言大模型研究報告
AIGC 語言大模型研究報告

chatgpt第三步:基于人類反饋的強化學習(RLHF)(創(chuàng)意引導)

對于同一個問題,不同人類的回答是不一樣的。為了讓模型得到一個讓大部分人都滿意的答案,我們再邀請一批人類,來對不同的回答進行排序/打分。然后,我們再訓練一個“打分模型”,來學習人類的打分標準。
AIGC 語言大模型研究報告

當GPT大概能朝著人類意圖的方向走時,我們需要給他更量化的指標,讓它知道同一個prompt下,不同回答在人類那里的排序。所以,我們要訓練一個獎勵模型(RM,Reward Model)。

獎勵模型也不是chatGPT的首創(chuàng),它借鑒于Stiennon et.al (2020)的研究結(jié)果。在這一階段,標注人員需要對同一prompt的不同回答進行排序,一共有33k的標注數(shù)據(jù)被用于訓練。

在標注階段,標注人員被要求對每一個prompt下的不同回答進行偏號排序。如圖,某個prompt下有ABC三個回答,標注人員認為A>B>C。

AIGC 語言大模型研究報告
AIGC 語言大模型研究報告

模型學會了怎么說話,同時我們又訓練出了一個獨立的獎勵模型,這時候,我們就要把兩者結(jié)合起來,讓模型能夠更好的對齊人類意圖了。在這里,chatGPT使用改良版本的PPO(Schulman et al, 2017)對GPT進行再次訓練,改良后的訓練算法被稱為PPO-ptx。為了更好回顧,我們再貼出第一部分的縮略版架構圖:
AIGC 語言大模型研究報告
不了解強化學習也沒關系,我們直接從損失函數(shù)上來說明這一步到底是怎么做的:
AIGC 語言大模型研究報告

總結(jié)

1、chatGPT的訓練過程:

  1. 教模型說話,由上文產(chǎn)生下文(初始GPT3/GPT3.5)
  2. 引導模型感知人類的意圖,根據(jù)人類的意圖說話(Supervised Fine-Tuning on GPT3/GPT3.5)
  3. 對經(jīng)過引導的模型的回答進行打分(Reward Model)
  4. 將打分結(jié)果返回給模型,讓模型根據(jù)打分結(jié)果不斷進行循環(huán)迭代(Reinforcement Learning from Human
    Feedback)

2、chatGPT是組裝模型,從這一點上來說,它不是創(chuàng)新的。

3、精心設計的人工標注、雄厚財力支撐起來的訓練資源、耐心地打磨等待和技術搬運、社會對非盈利組織的寬容等等不那么AI技術的原因,才是chatGPT從效果到口碑都起飛的主要原因。

大模型LLM領域,有哪些可以作為學術研究方向?

方向一:大模型的基礎理論問題

  • 大模型學習內(nèi)容的可解釋性:雖然大模型表現(xiàn)出了強大的學習能力,但是它們學到了什么,這些知識是如何在模型中組織的,仍然是一個開放的問題。研究者可以探索構建新的工具和技術,以幫助理解模型學習到的知識。
  • .涌現(xiàn)現(xiàn)象的進一步探索:研究大模型中的涌現(xiàn)現(xiàn)象,探討哪些能力或者模式是隨著模型規(guī)模的增大而出現(xiàn)的,有哪些能力是大模型獨有的。
  • 模型性能與規(guī)模的理論研究:進一步深入探討模型性能隨規(guī)模增長的邊際遞減情況,尋找理論依據(jù)和解決策略,從而找到更加有效、高效的模型設計和訓練策略。之前別人研究過圖像相關的,說數(shù)據(jù)集和模型參數(shù)想匹配時,模型參數(shù)和性能是呈現(xiàn)指數(shù)關系趨勢。那么語言上也是值得研究的
  • 數(shù)據(jù)選擇和組合:什么樣的訓練數(shù)據(jù)才是真正有效的呢?探索更有效的數(shù)據(jù)選擇和組合策略。例如,研究如何使用遷移學習或者元學習來減少大模型的訓練數(shù)據(jù)需求。(推薦指數(shù):4星)
  • 訓練策略:探索新的訓練策略,特別是針對大模型的策略。例如,研究如何使用新的適合大模型的優(yōu)化算法,或者探索模型的初始化和預訓練策略。
    AIGC 語言大模型研究報告

方向二:大模型的網(wǎng)絡架構問題

  • 非歐空間Manifold網(wǎng)絡框架:你可以進一步探索這個方向,研究如何將更復雜的幾何先驗知識整合到模型中,或者研究如何設計更高效的非歐空間Manifold網(wǎng)絡結(jié)構。
  • 工程和物理學啟發(fā)的模型:基于工程和物理學的啟發(fā),如State Space Model,動態(tài)系統(tǒng),研究新的模型結(jié)構或者學習算法。例如,你可以研究如何將動態(tài)系統(tǒng)的理論應用到深度學習模型的設計中。
  • 神經(jīng)科學啟發(fā)的模型:從神經(jīng)科學的角度出發(fā),探索新的網(wǎng)絡架構,例如Spiking Neural Network。你可以探索如何優(yōu)化這類網(wǎng)絡的性能,或者研究如何將這類網(wǎng)絡應用到特定的任務中。
  • 超越Transformer的新型網(wǎng)絡結(jié)構:你也可以直接從Transformer出發(fā),研究新的改進策略或者替代模型。例如,你可以研究如何通過改進Transformer的注意力機制,或者設計新的網(wǎng)絡層,來提高模型的性能。可以看看論文:fast-transfoemer,RWVK,結(jié)合了RNN,效果表現(xiàn)也不錯,推理速度也更快。(推薦指數(shù):3星)
    AIGC 語言大模型研究報告

方向三:大模型的高效計算問題

大模型如GPT-3、LAMMA等經(jīng)常擁有高達數(shù)千億的參數(shù),這使得訓練和部署這些模型需要巨大的計算和存儲資源。chatgpt光訓練消耗1200萬美元,用了10000張 V100訓練了數(shù)個月。

  • 訓練:優(yōu)化訓練算法:流水線并行策略、數(shù)據(jù)并行策略、張量并行策略。對這些進行組合調(diào)優(yōu),是非常有意義的,參考論文:DeepSpeed、Megatron-LM、OneFlow、fastSpeed等,它們都可以幫助提升模型的訓練效率。fastSpeed甚至節(jié)省了上千倍的顯存,速度也提升了上千倍。(推薦指數(shù):2星)
  • 推理:提高推理效率:對于已經(jīng)訓練好的模型,我們需要在保持性能的同時進行模型壓縮,如模型剪枝、知識蒸餾、參數(shù)量化等。近期研究發(fā)現(xiàn),利用大模型的稀疏激活現(xiàn)象可以有效提升模型推理效率。參考論文:BMCook,它可以融合多種壓縮技術,極大提高壓縮比例。如何根據(jù)大模型特性自動實現(xiàn)壓縮方法的組合,也是一個重要的研究方向。稀疏激活的利用:稀疏激活現(xiàn)象可以用來提高模型推理效率,基本思想是對神經(jīng)元進行聚類分組,每次輸入只調(diào)用少量神經(jīng)元模塊即可完成計算。這種方法叫做MoEfication。實驗發(fā)現(xiàn)僅使用10%的前饋網(wǎng)絡計算量,即可達到原模型約97%的效果。(剛剛出來的Scince文章,非常有意義,但是不推薦)
  • 微調(diào):節(jié)約資源消耗:為了讓大型模型更好地適應特定的下游任務,通常需要進行微調(diào)。然而,大型模型的微調(diào)往往需要大量的計算資源和存儲空間,以處理龐大的參數(shù)量,這對于一般用戶來說難以實現(xiàn)。但是,隨著諸如lora和Qlora這樣的技術的出現(xiàn),我們現(xiàn)在能夠在普通用戶的計算機上進行大模型的微調(diào)訓練,就像處理Bert模型那樣。這一技術進步為大模型的微調(diào)開辟了新的可能,也構成了一個非常有意義的研究方向。**(推薦指數(shù):3星)**參考論文:lora和Qlora,當基礎模型規(guī)模增長到一定程度,不同參數(shù)高效微調(diào)方法的性能差距縮小,且性能與全參數(shù)微調(diào)基本相當。
    AIGC 語言大模型研究報告

方向四:大模型的高效適配問題(推薦)

  • 提示學習(Prompt Learning):這是一種通過在輸入中添加提示(Prompts)[1,2,3] 來將各種下游任務轉(zhuǎn)化為預訓練中的語言模型任務的方法。這種方法可以有效地統(tǒng)一各類下游任務和預訓練-下游任務之間的形式,從而提高模型適配的效率。實際上,現(xiàn)在廣泛使用的指令微調(diào)(Instruction
    Tuning)就是運用提示學習思想的一個具體實例。此外,關于如何設計問題以使模型得到更好的回答,一種可能的探索方向是引用auto-gpt的思想,讓模型自我提問和回答,以找到改善性能的規(guī)律,這可能能夠?qū)憘€不錯的文章。(推薦指數(shù):4星)
  • 參數(shù)高效微調(diào):目前,參數(shù)高效微調(diào)還沒有獲得像提示微調(diào)那樣廣泛的關注,而實際上參數(shù)高效微調(diào)更反映大模型獨有特性。自己做個特定領域的大模型,換個名字就可以發(fā)論文了,如現(xiàn)在出來的面向法律領域的大模型、面向數(shù)學領域的大模型、面向醫(yī)學領域的大模型等,真的是一天出好幾個這樣的,還有許多結(jié)合多模態(tài)進行微調(diào)的。(推薦指數(shù):5顆星)

方向五:大模型的可控生成問題

現(xiàn)在學生能研究的其實也就提升學習、參數(shù)微調(diào)、思維鏈,更底層的研究參考如下(不推薦):

  • 更精細的控制:目前的控制精度主要在句子級別,比如通過改變輸入的提示來改變生成的內(nèi)容。但是,對于詞語級別甚至語義級別的控制,例如,生成特定情感的文本、特定語境的對話等,還需要進一步研究。
  • 控制和生成的平衡:在實際應用中,我們希望模型能根據(jù)給定的控制信號生成符合預期的輸出,同時保持生成的自然性和流暢性。然而,如何在控制精度和生成質(zhì)量之間找到最佳平衡,是一個值得研究的問題。
  • 理解和控制模型的隱層表征:理解和控制模型的內(nèi)部表征是另一個重要研究方向。通過對模型的中間層進行干預,可以實現(xiàn)更細粒度的控制。但這也涉及到對模型內(nèi)部表征的理解,這是一個非常有挑戰(zhàn)性的問題。
  • 評估方法:為了衡量不同控制策略的效果,我們需要一個科學有效的評估方法。但是,目前在可控生成領域,還缺乏一個通用且全面的評估框架。如何設計這樣的評估方法,是一個值得研究的問題。
  • 不確定性的管理:在生成的過程中,模型可能會面臨多種可能的輸出。如何處理這種不確定性,例如,是否允許模型提出多個可能的輸出,或者如何引導模型選擇最符合預期的輸出,也是一個研究方向。

方向六:大模型的安全倫理問題

  • 建立對抗攻擊和防御機制:可以研究新的對抗攻擊方法,并為大模型設計更有效的防御機制,包括如何在訓練時加入魯棒性約束,或是在推理時如何進行對抗樣本檢測和過濾
  • 深入理解和防止后門攻擊:研究如何在大模型中檢測和避免后門攻擊。例如,可以研究如何發(fā)現(xiàn)模型中的異常行為,如何清除被植入的后門,或是如何在訓練時避免后門的植入。
  • 倫理和道德對齊:如何確保模型的輸出與人類的倫理道德相一致,例如,如何在模型中實現(xiàn)公平性和去偏見,或是如何保證模型的輸出不會對特定群體產(chǎn)生傷害。
  • 研究模型的透明度和可解釋性:為了讓人們更好地理解模型的決策過程,可以研究如何提高模型的透明度和可解釋性,例如,設計新的可解釋性指標,或是開發(fā)可解釋性的訓練和推理方法。
  • 開發(fā)新的模型監(jiān)管和評估框架:鑒于大模型可能存在的各種潛在問題,可以研究如何構建一個有效的模型監(jiān)管和評估框架,以實現(xiàn)模型的可持續(xù)和可控使用。
  • 模型使用的社會影響:對于模型的實際使用,可以深入研究其對社會的影響,例如,模型是否可能加劇信息不對稱,是否可能被用于不正當用途,以及如何制定相關的法律和政策來規(guī)范模型的使用。
  • 黑盒模型的下游適配:面對僅提供推理API的大模型,如何在保證模型安全和知識產(chǎn)權的同時,進行有效的下游適配,能否開發(fā)出新的適配方法,這是一個重要的研究方向。

方向七:大模型的認知學習問題

(未來十年,這個課題方向?qū)芑?,很有意義,新工業(yè)革命的開始)

  • 工具學習與工具使用:研究大模型如何學習使用各種專業(yè)工具,如何把這些工具融合到模型的解決方案中,以及如何設計工具使得它們能夠與大模型更好地互動。參考:chatgpt的插件 (推薦指數(shù):4顆星)
  • 多模型交互:如何設計和實現(xiàn)多個大模型之間的交互,這些模型可以相互協(xié)作、相互競爭,或者以其他方式相互影響。這涉及到模型之間如何通信,如何分配任務,以及如何進行協(xié)同決策等問題。參考:auto-gpt (推薦指數(shù):4顆星)
  • 模型與環(huán)境的交互:研究大模型如何理解和操控它們所處的環(huán)境,例如虛擬環(huán)境或物理環(huán)境。這包括模型如何獲取環(huán)境信息,如何對環(huán)境進行操作,以及如何處理環(huán)境的反饋等問題。(推薦指數(shù):3顆星)
  • 模型的自主性與創(chuàng)新能力:研究大模型如何在解決任務時展現(xiàn)更多的自主性和創(chuàng)新能力,例如,如何設計新的訓練方法和目標函數(shù)使模型能夠更好地進行探索和創(chuàng)新,或者如何在模型中引入新的推理和學習機制。(推薦指數(shù):3顆星)
  • 復雜任務的拆解與解決:研究大模型如何理解復雜任務,并將其拆解為一系列更簡單的子任務。這涉及到任務理解,任務規(guī)劃,子任務調(diào)度,以及子任務間的依賴關系處理等問題。
  • 模型的社會屬性:如您所述,模型扮演的角色在虛擬環(huán)境中展現(xiàn)出一定的社會屬性,這會涉及到模型的社會交互能力、群體決策能力、以及對社會規(guī)則和文化習俗的理解等問題。
  • 模型助理團隊的構建與協(xié)調(diào):研究如何構建一個由多個大模型組成的助理團隊,以及如何協(xié)調(diào)這些模型以有效地解決復雜問題。

方向八:大模型的創(chuàng)新應用問題

  • 跨領域的預訓練模型:在已有領域(如法律、生物醫(yī)學)之外,可以嘗試在其他專業(yè)領域(如金融、物理、建筑設計等)進行領域特定的預訓練,制造出能夠理解該領域復雜問題的專業(yè)模型。預訓練數(shù)據(jù)集的構建和領域知識的注入將是重要的步驟。(推薦指數(shù):5顆星)
  • 數(shù)字生命和虛擬現(xiàn)實(VR):借助于大模型,可以設計更自然、更智能的虛擬人物或者虛擬助手,為用戶提供更加沉浸式的體驗。(推薦指數(shù):4顆星)
  • 生物醫(yī)學:在生物醫(yī)學領域,已有的預訓練模型如KV-PLM已經(jīng)表現(xiàn)出了很好的效果。未來,我們可以探索的方向包括用預訓練模型來理解更復雜的生物過程,如細胞信號傳導、遺傳網(wǎng)絡等?;蛘吒M一步,模型可以在分子層面預測藥物與靶點的互動,以幫助藥物設計和開發(fā)。(推薦指數(shù):4顆星)
  • 基于知識庫或互聯(lián)網(wǎng)的智能檢索:讀取知識庫、拆分段落、生成嵌入向量、存儲嵌入向量、相似度匹配、提取知識、生成回答。每一個步驟都值得深入研究。(推薦指數(shù):5星)
  • 大模型記憶研究:BufferMemory:這是一種最直接的方式,將之前的對話完整存儲下來。在每一輪新的對話中,都會將原來的所有對話傳遞給LLM。BufferWindowMemory:這種方式會將最近的K組對話存儲下來,在每一輪新的對話中將這K組對話傳遞給LLM。VectorStore-backed Memory:這種方式會將所有之前的對話通過向量的方式存儲到VectorDB(向量數(shù)據(jù)庫)中,在每一輪新的對話中,會根據(jù)用戶的輸入信息,匹配向量數(shù)據(jù)庫中最相似的K組對話。ConversionMemory:這種方式是在對話進行時對對話信息進行摘要,并將當前摘要存儲在內(nèi)存中。然后在新一輪對話中,可以將此摘要作為短期記憶傳遞給LLM。這種方式對于較長的對話非常有用,因為它是相當于壓縮了歷史的對話信息。(推薦指數(shù):5顆星) 上面的這四種遠遠滿足不了需求,需要加快研究步伐了。
    AIGC 語言大模型研究報告

方向九:大模型的數(shù)據(jù)和評估問題

  • 評估指標研究:這在ChatGPT出現(xiàn)前就已經(jīng)是重要的命題,像GLUE、SuperGLUE等評價集合都深遠地影響了預訓練模型的發(fā)展。通過逐層匯集模型在不同指標、數(shù)據(jù)集、任務和能力上的得分系統(tǒng)地評估模型在不同方面的表現(xiàn)。這種基于自動匹配答案評測的方式是大模型和生成式AI興起前自然語言處理領域主要的評測方式,優(yōu)點在于評價標準固定、評測速度快。而對于生成式AI,模型傾向于生成發(fā)散性強、長度較長的內(nèi)容,使用自動化評測指標很難對生成內(nèi)容的多樣性、創(chuàng)造力進行評估,于是帶來了新的挑戰(zhàn)與研究機會。
    評價方法的研究
    自動評價法:很多研究者提出了新的自動化評估方式,譬如通過選擇題的形式[5],收集人類從小學到大學的考試題以及金融、法律等專業(yè)考試題目,讓大模型直接閱讀選項給出回答從而能夠自動評測,這種方式比較適合評測大模型在知識儲備、邏輯推理、語義理解等維度的能力。
    模型評價法:也有研究者提出使用更加強大的大模型來做裁判[6]。譬如直接給GPT4等模型原始問題和兩個模型的回答,通過編寫提示詞讓GPT4扮演打分裁判,給兩個模型的回答進行打分。這種方式會存在一些問題,譬如效果受限于裁判模型的能力,裁判模型會偏向于給某個位置的模型打高分等,但優(yōu)勢在于能夠自動執(zhí)行,不需要評測人員,對于模型能力的評判可以提供一定程度的參考。
    人工評價法:人工評測是目前來看更加可信的方法,然而因為生成內(nèi)容的多樣性,如何設計合理的評價體系、對齊不同知識水平的標注人員的認知也成為了新的問題。目前國內(nèi)外研究機構都推出了大模型能力的“競技場”,要求用戶對于相同問題不同模型的回答給出盲評。這里面也有很多有意思的問題,譬如在評測過程中,是否可以設計自動化的指標給標注人員提供輔助?一個問題的回答是否可以從不同的維度給出打分?如何從網(wǎng)絡眾測員中選出相對比較靠譜的答案?這些問題都值得實踐與探索。

大模型的開源幾乎天天都在進行,總有一天人人都能在自己電腦部署一個類似chatgpt4性能的大模型
AIGC 語言大模型研究報告

方向十:大模型的易用性問題

  • 構建易用性的大模型生態(tài):讓大模型飛入千家萬戶”的目標形成一套覆蓋訓練、微調(diào)、壓縮、推理、應用的全流程高效計算工具體系。目前包括 高效訓練工具 BMTrain、高效壓縮工具 BMCook、低成本推理工具 BMInf、工具學習引擎 BMTools,等等。大模型不僅要自身性能好,還要有強大工具體系讓它好用。如Wenda、Deepspeed、 OpenBMB。(開發(fā)人員必須要研究的)

參考

微信公眾號:大猿板磚簡記(感謝大佬寫的那么詳細)
劉知遠教授:大模型LLM領域,有哪些可以作為學術研究方向?文章來源地址http://www.zghlxwxcb.cn/news/detail-487552.html

到了這里,關于AIGC 語言大模型研究報告的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • AIGC產(chǎn)業(yè)研究報告2023——三維生成篇

    AIGC產(chǎn)業(yè)研究報告2023——三維生成篇

    定義 人工智能三維生成是指利用深度神經(jīng)網(wǎng)絡學習并生成物體或場景的三維模型,并在三維模型的基礎上將色彩與光影賦予物體或場景使生成結(jié)果更加逼真。在應用中,生成物體或場景的三維模型稱為三維建模,生成三維模型的色彩與光影稱為三維渲染。 主要類型 三維生成

    2024年02月12日
    瀏覽(23)
  • AIGC產(chǎn)業(yè)研究報告2023——視頻生成篇

    AIGC產(chǎn)業(yè)研究報告2023——視頻生成篇

    易觀: 今年以來,隨著人工智能技術不斷實現(xiàn)突破迭代,生成式AI的話題多次成為熱門,而人工智能內(nèi)容生成(AIGC)的產(chǎn)業(yè)發(fā)展、市場反應與相應監(jiān)管要求也受到了廣泛關注。為了更好地探尋其在各行業(yè)落地應用的可行性和發(fā)展趨勢,易觀對AIGC產(chǎn)業(yè)進行了探索并將發(fā)布AIGC產(chǎn)

    2024年02月10日
    瀏覽(29)
  • ChatGPT研究報告:AIGC帶來新一輪范式轉(zhuǎn)移

    以ChatGPT為代表的AIGC(人工智能生成內(nèi)容)將成為新一輪范式轉(zhuǎn)移的開始。 需要聲明,我并不是人工智能專業(yè),只是在愈演愈烈的AI焦慮下,不想被這個技術潮流割韭菜,為此我特意搜集了大量資料,體系化的梳理了AIGC相關的信息。 本文約4000字,目標是快速建立AIGC知識體系

    2023年04月13日
    瀏覽(36)
  • 行業(yè)報告 | 清華大學AIGC發(fā)展研究1.0震撼發(fā)布?。夹g+未來篇)

    行業(yè)報告 | 清華大學AIGC發(fā)展研究1.0震撼發(fā)布!(技術+未來篇)

    文 | BFT機器人 ? 深度學習進化史:知識變軌 風起云涌 已發(fā)生的關鍵步驟: 人工神經(jīng)網(wǎng)絡的誕生 反向傳播算法的提出 GPU的使用 大數(shù)據(jù)的出現(xiàn) 預訓練和遷移學習 生成對抗網(wǎng)絡 (GAN) 的發(fā)明 強化學習的成功應用 自然語言處理的突破 即將發(fā)生的關鍵步驟: 通用人工智能 (AGI) 全維

    2024年02月15日
    瀏覽(22)
  • 計算機行業(yè)AIGC算力時代系列報告-ChatGPT芯片算力:研究框架

    ?簡介 “AI算力時代已經(jīng)來臨,計算機行業(yè)正在經(jīng)歷著一場前所未有的變革!” 這是一個充滿活力和興奮的時代,人工智能(AI)已經(jīng)成為了計算機行業(yè)中最為炙手可熱的話題。隨著技術的不斷發(fā)展和進步,計算機的算力正在以驚人的速度提高,這將徹底改變我們的生活和工

    2023年04月25日
    瀏覽(23)
  • 人工智能概論報告-基于PyTorch的深度學習手寫數(shù)字識別模型研究與實踐

    人工智能概論報告-基于PyTorch的深度學習手寫數(shù)字識別模型研究與實踐

    本文是我人工智能概論的課程大作業(yè)實踐應用報告,可供各位同學參考,內(nèi)容寫的及其水,部分也借助了gpt自動生成,排版等也基本做好,大家可以參照。如果有需要word版的可以私信我,或者在評論區(qū)留下郵箱,我會逐個發(fā)給。word版是我最后提交的,已經(jīng)調(diào)整統(tǒng)一了全文格

    2024年02月05日
    瀏覽(110)
  • ICV報告:中國的數(shù)字經(jīng)濟與5G市場研究報告

    ICV報告:中國的數(shù)字經(jīng)濟與5G市場研究報告

    近日,專注于前沿科技領域的國際咨詢機構I CV 發(fā)布了《中國的數(shù)字經(jīng)濟與5 G 市場研究報告》。報告指出,隨著 5G商用的發(fā)展,5G對經(jīng)濟社會的影響逐步顯現(xiàn) ,其 影響突出體現(xiàn)在對數(shù)字產(chǎn)業(yè)發(fā)展的帶動上 。隨著 5G 應用的不斷創(chuàng)新與擴散,這對于促進 實體經(jīng)濟轉(zhuǎn)型升級 以及

    2024年02月06日
    瀏覽(20)
  • OR青年 | 分布魯棒優(yōu)化研究報告

    OR青年 | 分布魯棒優(yōu)化研究報告

    作者信息: 胡海濤,東北財經(jīng)大學,管理科學與工程學院,管理科學與工程在讀博士 本文系『OR青年計劃』成果,是胡同學在孫秋壯老師指導下完成。由『運籌OR帷幄』社區(qū)主辦的『OR青年計劃』,旨在幫助對運籌學應用有理想和追求的同學,近距離與學界、業(yè)界導師交流課

    2024年02月14日
    瀏覽(18)
  • 分片公鏈之王 - NEAR項目研究報告

    分片公鏈之王 - NEAR項目研究報告

    2021年以太坊擴容可謂是加密圈的主線之一,其中各種Layer2協(xié)議的上線給以太坊生態(tài)添加不少生機。而在市場中,除了Layer2的擴容方案之外,其他 L1 的出現(xiàn)主要也是由以太坊的擴容問題驅(qū)動的。在2021年初,以太坊在總鎖定價值 (TVL) 中占據(jù)了超過 95% 的市場份額,而如今它僅擁

    2023年04月08日
    瀏覽(32)
  • 中國電信研究院發(fā)布《5G+數(shù)字孿生賦能城市數(shù)字化應用研究報告》

    中國電信研究院發(fā)布《5G+數(shù)字孿生賦能城市數(shù)字化應用研究報告》

    nbsp; nbsp; nbsp; nbsp;9月5日,中國電信研究院戰(zhàn)略發(fā)展研究所聯(lián)合中關村智慧城市產(chǎn)業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟在2023年中國國際服務貿(mào)易交易會數(shù)字孿生專題論壇正式對外發(fā)布《5G+數(shù)字孿生賦能城市數(shù)字化應用研究報告》。nbsp; nbsp; nbsp; nbsp; nbsp;會上,中國電信研究院戰(zhàn)略發(fā)展研究所副

    2024年02月09日
    瀏覽(99)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包