本文為2022秋網(wǎng)安學院的自然語言處理課程期末復習知識點整理,水平有限,整理的答案可能有錯誤或遺漏,歡迎大家指正。
文章的第二部分內(nèi)容參考了學校學姐的文章,文章寫的很好,大家可以關(guān)注她:(133條消息) 【一起入門NLP】中科院自然語言處理期末考試*總復習*:考前押題+考后題目回憶_國科大自然語言處理期末胡玥_vector<>的博客-CSDN博客
目錄
第一部分 2022秋季課程期末知識點復習
第一章第二章 不考
第三章 神經(jīng)網(wǎng)絡(luò)
第四章 語言模型 詞向量
第五章 注意力機制
第六章 基礎(chǔ)任務(wù)
第七章 預訓練語言模型
第八章 情感分析(不考)
第九章 信息抽取 *
第十章 問答系統(tǒng)
第十一章 閱讀理解
第十二章 對話系統(tǒng)(不考)
第二部分 2021秋期末考中考察的知識點
填空題(20題)
簡答題(6題)
綜合題(計算題+模型結(jié)構(gòu)分析題+模型設(shè)計題,3題)
第一部分 2022秋季課程期末知識點復習
第一章第二章 不考
第三章 神經(jīng)網(wǎng)絡(luò)
-
激活函數(shù)有哪些,對應(yīng)的作用
-
tanh
-
sigmoid
-
Relu
-
作用:增加網(wǎng)絡(luò)的表達能力,給網(wǎng)絡(luò)增加非線性因素
-
-
神經(jīng)網(wǎng)絡(luò)的參數(shù)學習方法,各自特點、區(qū)別,能解決什么樣的問題
-
梯度下降:每次更新時使用所有樣本,每次都朝著全局最優(yōu)方向迭代,適用于樣本不多的情況
-
隨機梯度下降:每次更新只用1各樣本,每次迭代不一定朝著全局最優(yōu),但最終結(jié)果往往是在全局最優(yōu)解附近
-
mini-batch梯度下降:每次更新時用b個樣本(前兩者的折中)
-
-
卷積神經(jīng)網(wǎng)絡(luò)的組成部分?各部分的作用
-
卷積層:減少模型參數(shù),進行卷積運算
-
池化層:減少模型規(guī)模
-
全連接層:將池化層的單元平化
-
-
遞歸神經(jīng)網(wǎng)絡(luò)
-
網(wǎng)絡(luò)結(jié)構(gòu)包括哪些部分
-
輸入層、隱藏層、輸出層
-
參數(shù)包括:輸入權(quán)重Wi、上一時刻權(quán)重Wh、輸出權(quán)重Wo、偏置b
-
-
典型的參數(shù)學習方法
-
BPTT
-
-
BPTT算法的原理
-
基本思想和BP算法類似,都是將輸出誤差以某種形式反傳給各層所有單元,各層按照本層誤差修正個單元的連接權(quán)重
-
但BPTT的參數(shù)是共享的,每個時刻訓練的都是相同的參數(shù)W和b。
-
且BPTT損失函數(shù)定義為每一個時刻的損失函數(shù)之和,它會在每一個時間步長內(nèi)疊加所有對應(yīng)權(quán)重的梯度
-
-
-
RNN改進模型LSTM、GRU、Bi-LSTM各自是對之前算法什么問題做出的改進?以及做了哪些改進?
-
LSTM是用來解決RNN的長距離依賴問題,它通過在循環(huán)單元內(nèi)添加門結(jié)構(gòu)來控制單元細胞狀態(tài)來實現(xiàn)的
-
GRU是用來解決RNN的長距離依賴問題和反向傳播的梯度問題,可理解為LSTM的簡化,它把LSTM的輸入門和遺忘門合并為更新門,刪除輸出門新增了重置門。
-
LSTM只能根據(jù)之前時刻的時序信息預測下一時刻的輸出,但有些問題當前時刻的輸出不僅與之前的狀態(tài)有關(guān),與未來的狀態(tài)也有關(guān)系,Bi-LSTM就是為了解決這一問題,做到基于上下文判斷。Bi-LSTM可看作兩層神經(jīng)網(wǎng)絡(luò),第一層第一層從句子的開頭開始輸入,第二層則從句子的最后一個詞語輸入,兩層進行相同處理,并對得到的結(jié)果共同分析。
-
第四章 語言模型 詞向量
-
統(tǒng)計語言模型建模方法(怎么用統(tǒng)計學習的方法構(gòu)建語言模型)
-
統(tǒng)計語言模型的基本思想:用句子S=w1,w2,…,wn 的概率 p(S) 刻畫句子的合理性
-
使用最大似然估計進行參數(shù)學習
-
用馬爾可夫假設(shè)和n-gram模型來解決統(tǒng)計語言模型參數(shù)過多的問題
-
用數(shù)據(jù)平滑解決樣本少引起的零概率問題
-
-
幾種神經(jīng)網(wǎng)絡(luò)語言模型(DNN-NNLM、RNN-RNNLM)
-
模型架構(gòu)
-
相比的優(yōu)勢和不足
-
RNNLM的優(yōu)勢
-
RNNLM 模型可以保留每個詞的全部歷史信息,不需簡化為n-gram
-
引入詞向量作為輸入后不需要數(shù)據(jù)平滑
-
神經(jīng)網(wǎng)絡(luò)一般用RNN語言模型
-
-
-
輸入、輸出、要預測哪些參數(shù)、參數(shù)學習方法要掌握
-
NNLM
-
輸入:上文詞向量拼接
-
輸出:目標詞概率
-
參數(shù)學習方法:BP
-
在訓練語言模型同時也訓練了詞向量——預測的參數(shù)包括各模型參數(shù)和詞向量
-
-
RNNLM
-
直接輸入:目標詞的前一個詞的詞向量
-
間接輸入:網(wǎng)絡(luò)中的前文信息
-
輸出:目標詞概率
-
參數(shù)學習方法:BPTT
-
在訓練語言模型同時也訓練了詞向量——預測的參數(shù)包括各模型參數(shù)和詞向量
-
-
-
-
詞向量
-
典型的詞向量:CBOW、skip-gram、C&W要掌握學習方法和區(qū)別(輸入、輸出、學習方法)
-
CBOW
-
輸入:上下文詞向量平均值
-
輸出:目標詞概率
-
參數(shù)學習方法:梯度下降法
-
-
skip-gram
-
輸入:目標詞詞向量
-
輸出:上下文詞概率
-
參數(shù)學習方法:梯度下降法
-
-
C&W
-
輸入:上下文及目標詞詞向量拼接
-
輸出:上下文及目標詞聯(lián)合打分(正樣本打高分、負樣本打低分(負樣本是將正樣本序列中的中間詞替換成其它詞))
-
參數(shù)學習方法:采用pairwise的方式對文本片段進行優(yōu)化
-
-
-
第五章 注意力機制
-
傳統(tǒng)注意力機制
-
結(jié)構(gòu)包括哪些模塊
-
輸入:K(集合)、Q
-
輸出:V
-
三個階段:
-
注意力打分函數(shù)
-
softmax
-
加權(quán)求和
-
-
-
有哪些計算方法(有哪些注意力計算模式)
-
鍵值對模式 K!=V 是用V去加權(quán)求和計算輸出值的
-
普通模式 K=V
-
-
不同類型的注意力機制是如何計算的?
-
軟注意力 對輸入句子的任意單詞都計算概率,輸出的是概率分布
-
硬注意力 直接從輸入句子中找到某個單詞,將其他單詞硬性地認為對齊概率為0
-
全局注意力 計算attention時考慮encoding端序列中所有的詞
-
局部注意力 軟注意力和硬注意力的折中,在一個大小為D的窗口輸出概率分布,窗口外的認為對齊概率為0
-
-
注意力機制在nlp領(lǐng)域的應(yīng)用場景
-
在任何有“求和”的地方都能使用
-
宏觀如機器翻譯、圖卷積的鄰接節(jié)點聚集
-
-
-
注意力編碼機制
-
對不同序列的不同編碼方式
-
單一向量編碼:將輸入序列編碼成單一向量表示(句表示、篇章表示、詞的上下文表示)
-
不同序列間編碼:將2個序列編碼成二者融合的向量表示(匹配任務(wù)、閱讀理解的混合層表示)
-
同一序列自編碼:使用多頭注意力編碼對一個句子編碼,起到句法分析器的作用
-
-
不同編碼方式的計算方式
-
單一向量編碼:句子各元素K序列與Q的關(guān)聯(lián)關(guān)系
-
不同序列間編碼:對K序列和Q序列編碼
-
同一序列自編碼:采用多頭注意力機制,每頭的Q=K=V且參數(shù)不共享,最后把各頭的結(jié)果拼接
-
-
第六章 基礎(chǔ)任務(wù)
-
文本分類和匹配了解基本技術(shù)思路即可
-
序列標注
-
馬爾可夫、隱馬爾可夫、隱馬爾可夫+CRF 模型結(jié)構(gòu)、組成部分有哪些、各組成部分的工作機制
-
馬爾可夫模型
-
組成M =( S, π ,A) (三元組)
-
S:模型中狀態(tài)的集合
-
A:與時間無關(guān)的狀態(tài)轉(zhuǎn)移概率矩陣
-
p:初始狀態(tài)空間的概率分布
-
-
-
隱馬爾可夫模型
-
組成λ =( S, O, π ,A,B)或簡寫為 λ = (π ,A,B) (五元組)
-
狀態(tài)序列Q:表示起決定作用的后臺本質(zhì)(天氣)
-
觀察序列O:表示觀察到的前臺現(xiàn)象(潮濕。。)
-
B:給定狀態(tài)下,觀察值概率分布
-
-
-
-
隱馬爾可夫的重要問題
-
評估問題的向前、向后算法的計算題
-
解碼問題的維特比算法的計算題
-
-
隱馬爾可夫+CRF
-
做序列標注的基本原理
-
CRF的作用、和隱馬爾可夫之間的關(guān)系
-
隱馬爾可夫模型因為輸出獨立性假設(shè),無法考慮上下文特征,故需要最大熵模型來解決該問題,但最大熵模型又有輸出元素之間獨立的問題,故使用CRF來使輸出元素相關(guān)聯(lián),避免不合理輸出
-
-
-
-
序列生成
-
3種序列生成網(wǎng)絡(luò)的典型網(wǎng)絡(luò) 方法、網(wǎng)絡(luò)設(shè)計、特點、解決的問題、網(wǎng)絡(luò)的結(jié)構(gòu)
-
生成式-序列生成模型
-
特點:輸出詞表大小固定,且不會隨輸入變化
-
典型模型
-
基于RNN結(jié)構(gòu)生成模型
-
存在曝光偏差問題
-
-
RNN+Attention架構(gòu)生成模型
-
使用attention來使RNN在機器翻譯時,找到中英文對應(yīng)詞的關(guān)聯(lián)關(guān)系
-
典型網(wǎng)絡(luò)設(shè)計:BiLSTM + Attention 模型結(jié)構(gòu)
-
Encoding端采用雙向RNN,Decoding端采用單向RNN
-
輸入:X(源語句子)
-
輸出:Y(目標語句子)
-
-
-
??Transformer架構(gòu)生成模型
-
特點
-
全部采用Attention機制
-
克服了RNN無法并行計算的缺點,可以高度并行,訓練速度快;
-
具有捕捉long distance dependency的能力,有較高的建模能力
-
訓練:并行
-
預測:編碼端并行,解碼端串行
-
-
網(wǎng)絡(luò)結(jié)構(gòu)
-
編碼端:6層Attention堆疊,包含2個子層(Multi-head attention 和Feed Forward Network)
-
解碼端:6層Attention堆疊,包含3個子層(Multi-head attention ,cross-attention和 Feed Forward Network)
-
交叉注意力部分:解碼端的每一層與編碼端的最后輸出層做 cross-attention
-
-
訓練過程
-
把X輸入到encoder里去,最后一層encoder最終輸出作為decoder里每一層的K和V;
-
將 < Go >作為decoder的初始輸入,將decoder最后層最大概率輸出詞 y1和答案y1’ 做cross entropy計算error。
-
將< Go >和 i 個??1’ ~??i’ 作decoder的輸入生成yi+1并和yi+1’ 做cross entropy計算error
-
重復步驟 3. 直至最后一個輸出與終止符做cross entropy計算error
-
-
Transformer在訓練中采用MASK 技術(shù)(有兩種)來實現(xiàn)并行操作
-
Padding Mask
-
訓練樣本的原始句子長度不一樣,需要padding。對于那些補零的數(shù)據(jù),為了讓attention機制不把注意力放在這些位置上,把這些位置的值加上一個非常大的負數(shù)(負無窮),經(jīng)過softmax后,這些位置的權(quán)重就會接近0。
-
-
Sequence Mask
-
屏蔽句子中當前詞之后的詞,使預測當前詞時只能看到之前的詞
?文章來源地址http://www.zghlxwxcb.cn/news/detail-492641.html
-
-
-
預測過程
正在上傳…重新上傳取消
-
訓練好的模型在預測時將源句子X在編碼端輸入, encoder對其并行編碼后得到編碼端的輸出tensor (不直接作decoder輸入),然后Decode端進行解碼。
-
用起始符< Go >當作decoder的 輸入,得到輸出 的第1個詞
-
用< Go > + 已輸出的詞解碼得到后繼的輸出詞
-
重復2. 直至輸出為結(jié)束符號
-
-
生成模型能完成什么下游任務(wù)
-
機器翻譯
-
-
-
-
-
選擇式-序列生成模型
-
特點:輸出詞表與輸入詞表相同,大小固定。無法解決輸出詞表需按輸入情況動態(tài)變化的問題
-
指針網(wǎng)絡(luò)
-
模型結(jié)構(gòu)
-
輸入:X序列 (x1, x2, x3, x4)
-
輸出:從輸入序列中選出的序列( x1,x4,x2,x1, )
-
-
應(yīng)用:
-
文本摘要
-
閱讀理解
-
-
可以解決OOV問題
-
-
-
選擇-生成式序列生成模型
-
典型網(wǎng)絡(luò)
-
指針生成器網(wǎng)絡(luò)(PGnet)
-
解決的問題
-
指針網(wǎng)絡(luò)的輸出詞表與輸入詞表相同,無法處理輸出需要產(chǎn)生輸出詞表以外詞的情況。
-
改進思路:將指針網(wǎng)和編碼解碼生成網(wǎng)結(jié)合,構(gòu)建可生成可選擇的指針生成器網(wǎng)絡(luò)
-
-
模型結(jié)構(gòu)
-
Sequence-to-sequence attentional model
-
pointer-generator network
?
-
Coverage mechanism
-
目的就是希望各個時刻attention分布不同 ,避免重復
-
每次在計算attention時,需要考慮之前的attention分布。
-
-
-
基本思想:將編碼-解碼+注意力模型和指針網(wǎng)結(jié)合,生成既可產(chǎn)生也可選擇的輸出。
-
特點:Yi 既可以從輸入端X 的標識詞典中產(chǎn)生也可以從輸出端Y 的標識詞典中產(chǎn)生,這樣既可以生成高質(zhì)量的摘要,也可以處理原文中的未登錄詞(OOV)。
-
-
拷貝網(wǎng)絡(luò)
-
解決的問題
-
傳統(tǒng)seq2seq高度的依賴詞的表征,當遇到OOV(Outof-vocabulary)會出現(xiàn)表達不準確。而在實際應(yīng)用中,有些場合僅僅需對該生僻詞逐字保留即可。
-
解決方法:通過 Copy mechanism可以將輸入序列中的詞拷貝到輸出序列中,較好的處理 OOV 問題
-
-
-
-
-
-
生成模型的評估指標
-
正確率
-
測試結(jié)果中正確切分的個數(shù)占系統(tǒng)所有輸出結(jié)果的比例。P=n/N
-
-
召回率
-
測試結(jié)果中正確結(jié)果的個數(shù)占標準答案總數(shù)的比例。R=n/M
-
-
BLUE
-
計算不同長度的 N 元組合的精度
-
-
ROUGE
-
和bleu值相似,但是rouge計算的是召回率而不是精度
-
-
-
第七章 預訓練語言模型
-
預訓練語言模型分類:
-
自回歸——根據(jù)上文內(nèi)容預測下一個單詞或更具下文內(nèi)容預測前面的單詞(GPT)
-
自編碼——根據(jù)上下文來預測被MASK掉的單詞(BERT)
-
廣義自回歸——采用特殊的生成順序根據(jù)上下文內(nèi)容預測下個可能的單詞(XLNet)
-
-
emlo、gpt、bert、bart等預訓練語言模型
-
結(jié)構(gòu)(除了emlo,其他幾個都是基于transformer基礎(chǔ)block的架構(gòu),要搞清楚他們與transformer的關(guān)系(有幾個什么的))、輸入輸出形式是什么樣的、預訓練的目標
-
EMLO
-
預訓練目標:學習深層的上下文表示知識,并用此來更好的增強各類NLP服務(wù)
-
預訓練方法:梯度下降法
-
-
GPT
-
結(jié)構(gòu):采用了 Transformer 的 Decoder 部分,并且每層只有Masked Multi Self-Attention和 Feed Forward兩個子層,共疊加使用了 12 層的 Decoder
?
-
輸入:當前詞的前k個token,進行token embedding、position embedding
-
-
BERT
-
預訓練目標:Transformer比LSTM能學到更豐富的語言結(jié)構(gòu)知識,本文用Transformer的Eecode 聯(lián)合上下文語境訓練雙向語言模型(相比ELMO),并在輸出端附加一個簡單的輸出層 就可方便的將所學的深層語言結(jié)構(gòu)知識遷移到各類語言任務(wù),用以增強各類NLP任務(wù)
-
結(jié)構(gòu):
-
使用堆疊的雙向Transfomer Encoder,基礎(chǔ)班是12個Encoder(12層),高級版是24個Encoder
-
輸入:一個句子或一個句對(任意長度的連續(xù)文本片段),每個輸入以[CLS]開頭,句子對之間加一個[SEP],進行token embedding、position embedding、segment embedding
-
輸出:各輸入位對應(yīng)的 Transformer 編碼位
-
-
Pre-training階段存在”自己看見自己問題“現(xiàn)象(因為是雙向Encoder),可用MLM(Masked Language Model)解決
-
-
BART
-
BERT只使用了Transformer的Encoder,GPT只使用了Transformer的Decoder,因此造成兩個鴻溝:
-
BERT具備雙向語言理解能力卻不能具備做生成任務(wù)的能力
-
GPT擁有自回歸特性卻不能更好的從雙向理解語言
解決方法:使用標準的Transformer結(jié)構(gòu)為基礎(chǔ),吸納BERT和GPT的優(yōu)點,使用多 種噪聲破壞原文本,再將殘缺文本通過序列到序列的任務(wù)重新復原(降噪自監(jiān)督)
-
-
結(jié)構(gòu):
-
使用標準的Transformer結(jié)構(gòu)
-
-
訓練:
-
輸入:加噪聲干擾的原文
-
輸出:恢復后的原文序列
-
-
-
-
互相的區(qū)別和聯(lián)系
-
-
prompt方法(第四范式)
-
核心思想
-
改變下游任務(wù)形式用預訓練模型完成任務(wù)
-
-
典型方法及相應(yīng)適合的學習任務(wù)
-
-
NLP四大范式
-
第四范式與第三范式的區(qū)別聯(lián)系:第三范式是預訓練模型“遷就”各種下游任務(wù),而第三范式是下游任務(wù)“遷就”預訓練模型。但本質(zhì)上兩者都是使預訓練模型和下游任務(wù)越來越靠近
-
第八章 情感分析(不考)
第九章 信息抽取 *
-
實體和關(guān)系抽取的基本過程
-
實體抽取方法
-
限定域:基于神經(jīng)網(wǎng)絡(luò)方法 (CNN+RNN,RNN+CRF ,BERT)
-
-
限定域和非限定域的關(guān)系抽取方法都要 掌握 基本過程
-
限定域
-
規(guī)則方法:人工編制各種識別關(guān)系的規(guī)則,利用規(guī)則來識別。成本高,覆蓋面底。
-
基于統(tǒng)計的抽取方法:將關(guān)系實例轉(zhuǎn)換成高維空間中的特征向量或直接用離散結(jié)構(gòu)來表示, 在標注語料庫上訓練生成分類模型, 然后再識別實體間關(guān)系
-
基于核函數(shù)方法:挖掘反映語義關(guān)系的結(jié)構(gòu)化信息及如何有效計算結(jié)構(gòu)化信息之間的相似度
-
基于神經(jīng)網(wǎng)絡(luò)的抽取方法:設(shè)計合理的網(wǎng)絡(luò)結(jié)構(gòu), 從而捕捉更多的特征信息, 進而準確的進行關(guān)系分類
-
單一關(guān)系抽取
-
任務(wù)流程:
-
命名實體識別
-
關(guān)系抽取
-
-
使用的模型
-
CNN
-
BiLSTM+attention
-
BERT
-
-
-
聯(lián)合抽取
-
聯(lián)合關(guān)系抽取指同時進行 實體識別 和 關(guān)系的抽取
-
-
-
非限定域
-
Bootstrapping
-
遠程監(jiān)督
-
-
-
非限定域遠程監(jiān)督方法重點掌握原理、優(yōu)勢、局限及改進方法
-
限定域的實體關(guān)系抽取任務(wù)需要預先定義關(guān)系類型體系,然而定義一 個全面的實體關(guān)系類型體系是很困難的。非限定域?qū)嶓w關(guān)系抽取技術(shù) 不先定義關(guān)系類別,關(guān)系類別自動獲取
-
遠程監(jiān)督方法
-
原理:
-
遠程監(jiān)督基于一個假設(shè)——對于一個已有的知識圖譜中的一個三元組,假設(shè)外部文檔庫中任何包含這對實體的句子,在一定程度上都反映了這種關(guān)系。
-
基于此假設(shè),遠程監(jiān)督算法可以基于一個標注好的小型知識圖譜,給外部文檔庫中的句子標注關(guān)系標簽
-
-
優(yōu)點
-
遠程監(jiān)督的提出使得快速、大規(guī)模構(gòu)建關(guān)系抽取數(shù)據(jù)集變?yōu)榱丝赡?/p>
-
-
缺點最大問題在于樣本噪聲:
-
遠程監(jiān)督強假設(shè)引入了許多假正例噪聲(本身不包含關(guān)系但被標注了)
-
由于知識庫不完備,造成了很多假負例噪聲(本身包含關(guān)系但知識庫中沒有)
-
-
遠程監(jiān)督方法目前的幾種思路(改進方法)
-
隱式處理噪聲:在訓練過程中,通過對bag中的樣本進行軟加權(quán)等方式來降低標簽 噪聲樣本的影響,這類方法一般需要特殊設(shè)計的模型,但效果普遍較好。
-
顯式處理噪聲:在進行模型訓練前,先通過一定的方式來檢測噪聲樣本并進行處理, 得到一個處理后的數(shù)據(jù)集,并用這個數(shù)據(jù)集訓練一個關(guān)系抽取模型。這類方法一般 比較難,普遍采用強化學習等方式進行。但這類方法的優(yōu)點在于應(yīng)用性比較強,可 以將處理好的數(shù)據(jù)集應(yīng)用于任何一個模型中,從而提升模型的關(guān)系抽取效果。
-
外部信息輔助:可以認為遠程監(jiān)督的標簽是一種比較弱的監(jiān)督信息,在此基礎(chǔ)上可 以加入一些外部的輔助信息,如將圖譜補全任務(wù)加入進行聯(lián)合學習;或者加入一些 無監(jiān)督、弱監(jiān)督的信息等,來輔助進行關(guān)系抽取,消除噪聲的影響
-
-
-
-
-
事件抽取掌握基本概念
-
概念
-
事件是發(fā)生在某個特定的時間點或時間段、某個特定的地域范圍內(nèi),由 一個或者多個角色參與的一個或者多個動作組成的事情或者狀態(tài)的改變
-
-
抽取哪些關(guān)鍵要素、抽取的基本過程、每個過程抽取哪些基本要素
-
關(guān)鍵要素
-
時間,地點,人物,原因,結(jié)果、
-
-
任務(wù)步驟
-
事件檢測(Event Detection)
-
觸發(fā)詞識別(Trigger Identification)
-
觸發(fā)詞類型分類(Trigger Type Classification)
-
-
元素抽?。ˋrgument Extraction)
-
元素識別(Argument Identification)
-
元素角色分類(Argument Role Classification)
-
-
-
-
第十章 問答系統(tǒng)
-
了解有幾類典型的問答任務(wù)、各自特點、輸入、輸出
-
專家系統(tǒng)
-
特點:問題限定領(lǐng)域;數(shù)據(jù)基于結(jié)構(gòu)化領(lǐng)域知識數(shù)據(jù)。它們的后臺有一個數(shù)據(jù) 庫,保存系統(tǒng)可提供的各種數(shù)據(jù)。而在用戶提問時,系統(tǒng)把用戶的問題轉(zhuǎn)換成 SQL查詢語句,從數(shù)據(jù)庫中查詢到數(shù)據(jù)提供給用戶
-
輸入:問題(sql語句)
-
輸出:答案
-
-
檢索式問答
-
特點:問題領(lǐng)域開放,基于非結(jié)構(gòu)化Web數(shù)據(jù);檢索內(nèi)容為簡短的詞或詞組
-
輸入:問題(簡短的詞)
-
輸出:答案
-
-
社區(qū)問答
-
特點:根據(jù)用戶所提問題,找到社區(qū)中與之相應(yīng)的答案。在社區(qū)問答數(shù)據(jù)中有大量的主觀類型的問題,主觀問題沒有標準答案,而且答案可以多個
-
-
知識問答
-
特點:給定自然語言問題,通過對問題進行語義理解和解析, 利用知識庫進行查詢、推理得出答案。
-
輸入:對答案的模糊描述
-
輸出:推斷出的答案
-
-
-
知識庫問答基本技術(shù)思路、解決什么樣的問題
-
基本技術(shù)思路:
-
給定自然語言問題,通過對問題進行語義理解和解析, 利用知識庫進行查詢、推理得出答案。
-
-
技術(shù)挑戰(zhàn)
-
語言多樣性
-
知識圖譜搜索規(guī)模大
-
大量復合性問題
-
-
挑戰(zhàn)的解決方法
-
. 語義解析(Semantic Parsing) 偏語言學的方法,主體思想是將自然語言轉(zhuǎn)化為一系列形式化的邏輯 形式(logic form),通過對邏輯形式進行自底向上的解析,得到一 種可以表達整個問題語義的邏輯形式,通過相應(yīng)的查詢語句在知識庫 中進行查詢,從而得出答案。
-
信息抽?。↖nformation Extraction)通過提取問題中的實體,通過在知識庫中查詢該實體可以得到以該實 體節(jié)點為中心的知識庫子圖,子圖中的每一個節(jié)點或邊都可以作為候 選答案,通過觀察問題依據(jù)某些規(guī)則或模板進行信息抽取,得到問題 特征向量,建立分類器通過輸入問題特征向量對候選答案進行篩選, 從而得出最終答案
-
向量建模(Vector Modeling)根據(jù)問題得出候選答案,把問題和候選答案都映射為分布式表達(Distributed Embedding),通過訓練數(shù)據(jù)對該分布式表達進行訓練,使得問題和正確答 案的向量表達的得分(通常以點乘為形式)盡量高,模型訓練完成后則可根據(jù) 候選答案的向量表達和問題表達的得分進行篩選,得出最終答案。
-
表示學習法:問題主題抽取→ 知識子圖抽取 → 知識子圖表示 → 問題-知識相關(guān)性計算
-
-
第十一章 閱讀理解
-
閱讀理解(MRC)和問答系統(tǒng)(QA)有什么典型區(qū)別
-
問答系統(tǒng)(QA)考察系統(tǒng)的文本匹配、信息抽取能力;
?
-
MRC考察系統(tǒng)對于文本細致化的語言理解能力和推理能力,核心問題是理解和推理,并不是簡單的文本匹配或者相似度計算
正在上傳…重新上傳取消
-
-
閱讀理解基本框架
-
四個模塊組成
-
嵌入編碼 Embeddings
-
特征提取 Feature Extraction / Encoding
-
文章-問題交互 Context-Question Interaction
-
答案預測 Answer Prediction
-
-
第十二章 對話系統(tǒng)(不考)
第二部分 2021秋期末考中考察的知識點
填空題(20題)
-
bert輸入為什么要進行位置標注
-
詞在語句中的位置非常重要。使用同樣的詞語,排列位置不同,語義可能不同
-
bert使用堆疊的雙向Transformer Encoder,Transformer主要核心是attention注意力機制,attention機制無法捕捉詞順序,類似一個升級版的“詞袋”模型。故需要進行位置標注添加位置信息
-
-
梯度下降與隨機梯度下降的區(qū)別
-
梯度下降法是在一組參數(shù)更新之前對所有訓練樣本進行評估,而隨機梯度下降是在一組參數(shù)更新之前對一個訓練樣本進行評估。
-
-
attention輸出鍵值對和輸出值有什么區(qū)別
-
普通模式下,key=value=X,softmax函數(shù)輸出的ai直接與Ki相乘得到輸出Att-V
-
鍵值對模式下,key!=value,softmax函數(shù)輸出的ai與Ki對應(yīng)的Vi相乘得到輸出Att-V
-
-
軟注意力機制的概念
-
軟注意?機制就是雖然詞語權(quán)重不同,但是在訓練模型的時候?露均沾,每個詞語都?到,焦點詞語的權(quán)重?。在選擇信息的時候,不是從N個信息中只選擇1個,?是計算N個輸?信息的加權(quán)平均,再輸?到神經(jīng)?絡(luò)中計算
-
硬注意?機制是從存儲的多個信息中只挑出?條信息來,可能是概率最?的那個詞向量
-
-
RNN的參數(shù)訓練方法:BPTT
簡答題(6題)
-
attention的結(jié)構(gòu),應(yīng)用,優(yōu)勢
-
結(jié)構(gòu)
-
輸入:Q,K(集合)
-
輸出:Att-V
-
三個階段
-
計算f(Q,Ki)
-
ai=softmax(f(Q,Ki))
-
計算輸出Att-V=aiKi或Att-V=aiVi
-
-
-
應(yīng)用
-
網(wǎng)絡(luò)中有“求和”的地方都可以用,如 圖卷積, 機器翻譯等
-
-
優(yōu)勢
-
根據(jù)不同場景動態(tài)選擇不同的關(guān)注對象
-
不考慮詞之間的距離直接計算依賴關(guān)系,提升任務(wù)性能
-
-
-
指針網(wǎng)絡(luò)和指針生成網(wǎng)絡(luò)的區(qū)別
-
指針網(wǎng)絡(luò)是選擇式序列生成模型,其輸出端詞表與輸入端詞表相同,只生成可選擇的輸出。
-
指針生成網(wǎng)絡(luò)是選擇-生成式序列生成模型,其將指針網(wǎng)和編碼解碼生成網(wǎng)結(jié)合,輸出詞表與輸入詞表可以不相同,生成即可產(chǎn)生也可選擇的輸出。
-
-
詞向量的產(chǎn)生原因,優(yōu)勢
-
向機器學習模型直接輸入字符串不便于模型進行計算和文本之間的比較。因此,我們需要一種方式來表示一個文本,這種文本表示方式要能夠便于進行文本之間的比較,計算等。詞向量由此誕生
-
詞向量優(yōu)勢:
-
解決了one-hot表示的詞匯鴻溝和維數(shù)災難問題
-
-
-
第三范式和第四范式的區(qū)別
-
第三范式的fine-tuning過程是調(diào)整預訓練模型,使其更加匹配下游任務(wù),第四范式正好相反,prompt過程則是調(diào)整下游任務(wù),使其更加匹配預訓練模型。也就是第三范式是預訓練模型遷就下游任務(wù),而第四范式是下游任務(wù)遷就預訓練模型。
-
-
bert和GPT的相同點和不同點
-
共同點
-
Bert和GPT-2都采用的是transformer作為底層結(jié)構(gòu)~
-
效果都很好
-
-
不同點
-
語言模型:Bert和GPT-2雖然都采用transformer,但是Bert使用的是transformer的encoder,即:Self Attention,是雙向的語言模型;而GPT-2用的是transformer中去掉中間Encoder-Decoder Attention層的decoder,即:Masked Self Attention,是單向語言模型。
-
結(jié)構(gòu):Bert是pre-training + fine-tuning的結(jié)構(gòu);而GPT-2只有pre-training。
-
輸入向量:GPT-2是token embedding + prosition embedding;Bert是 token embedding + position embedding + segment embedding。
-
參數(shù)量:Bert是3億參數(shù)量;而GPT-2是15億參數(shù)量。
-
Bert引入Masked LM和Next Sentence Prediction;而GPT-2只是單純的用單向語言模型進行訓練,沒引入這兩個。
-
Bert不能做生成式任務(wù),而GPT-2可以。
-
-
-
激活函數(shù)有什么作用?應(yīng)該具有哪些性質(zhì)
-
作用:增強網(wǎng)絡(luò)表達能力,加入非線性因素?
-
性質(zhì):連續(xù)可導,激活函數(shù)和導函數(shù)簡單,導函數(shù)值域范圍合理。
-
-
什么是梯度消失問題?如何解決?
-
梯度消失:在誤差反向傳播時,每一層都要乘以激活函數(shù)的導數(shù),若 該導數(shù)值小于1,將導致誤差愈來愈小,甚至消失。(如果導數(shù)很大將導致梯度爆炸)?
-
解決辦法:選擇合適的激活函數(shù)(Relu),用復雜的門結(jié)構(gòu)代替激活函數(shù),殘差結(jié)構(gòu)。
-
-
CNN各層的作用是什么?
-
卷積層:通過卷積操作減少參數(shù)
-
池化層:通過采樣減少網(wǎng)絡(luò)規(guī)模
-
全連接層:將池化層的單元平化
-
-
什么是詞向量?
-
一些詞表示方法(one-hot)導致模型耗空間大,且稀疏,需要構(gòu)造低維稠密的詞向量作為詞的分布式表示
-
-
詞向量的特征??
-
語義相似的詞,其詞向量在空間距離更相近
-
相似關(guān)系對的詞向量之差也相似
-
-
CBOW與skip-gram的區(qū)別??
-
CBOW用上下文預測中心詞
-
skip-gram用中心詞預測上下文
-
綜合題(計算題+模型結(jié)構(gòu)分析題+模型設(shè)計題,3題)
-
維比特、前向、后向計算題
-
寫出各種模型的輸入輸出。比如CBOW輸入(x1x2x4x5)輸出x3
-
設(shè)計題:設(shè)計一個帶有Attention機制的神經(jīng)網(wǎng)絡(luò)序列生成模型,要求可完成機器翻譯任務(wù)也可完成自動文摘任務(wù)。畫出模型結(jié)構(gòu),寫出輸入,輸出,函數(shù)關(guān)系,解釋模型原理,介紹模型如何訓練,說明加入attention有哪些好處。(要同時完成生成任務(wù)和選擇任務(wù))
-
模型結(jié)構(gòu)分析題
-
模型設(shè)計題文章來源:http://www.zghlxwxcb.cn/news/detail-492641.html
?
到了這里,關(guān)于[知識點整理]中科院/國科大 自然語言處理nlp 期末考試知識點整理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!