1緒論
1.課題背景與意義
自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域與計算機科學(xué)領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。我們所學(xué)習(xí)的NLP課程通過教授自然語言處理的基本概念與技術(shù),幫助我們了解并掌握這一領(lǐng)域的核心知識與方法。
在課程的開篇,我們首先學(xué)習(xí)了自然語言的基本概念,區(qū)分于計算機語言,自然語言是人類發(fā)展過程中形成的一種信息交流的方式,包括口語及書面語,反映了人類的思維,都是以自然語言的形式表達。我們學(xué)習(xí)了自然語言的預(yù)處理,其中包括了去除噪聲和對文本進行分詞等操作。在數(shù)據(jù)處理的過程中,文本中會存在各種噪聲或無用數(shù)據(jù),這些數(shù)據(jù)會對后續(xù)處理帶來麻煩,因此需要對其進行處理,以獲得更好的處理結(jié)果。在自然語言處理中,文本數(shù)據(jù)需要被轉(zhuǎn)換成計算機可操作的形式,這一過程稱為文本的表示。我們學(xué)習(xí)了常見的文本表示方法,包括詞袋模型(Bag-of-Words),TF-IDF方法等。情感分析是NLP領(lǐng)域的熱門應(yīng)用之一,其目的是對文本的情感色彩進行分類,通??梢苑譃檎?、負面和中性情緒。我們通過學(xué)習(xí)情感分析的基本流程及技術(shù),掌握了如何對文本進行情感分析的方法和技巧。
自然語言處理(Natural Language Processing, NLP)是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。隨著互聯(lián)網(wǎng)的快速發(fā)展,海量的自然語言數(shù)據(jù)不斷涌現(xiàn),如何挖掘和利用這些數(shù)據(jù)成為了自然語言處理面臨的重大挑戰(zhàn),也為其帶來了更廣闊的發(fā)展前景。在當(dāng)今信息時代,自然語言處理已被廣泛應(yīng)用于機器翻譯、智能問答、信息檢索、情感分析等領(lǐng)域,進一步提高了人們從文本數(shù)據(jù)中獲取有用信息的效率和質(zhì)量,對人類的生產(chǎn)生活產(chǎn)生了積極的影響。而隨著技術(shù)的不斷發(fā)展,自然語言處理將會在更多領(lǐng)域得到應(yīng)用。
1.2國內(nèi)外研究現(xiàn)狀
近年來,自然語言處理在國內(nèi)外的研究越來越受到重視,涉及的應(yīng)用領(lǐng)域也越來越廣泛。以下是對國內(nèi)外自然語言處理研究現(xiàn)狀的簡要介紹:
詞向量表示在NLP中,將單詞轉(zhuǎn)換為連續(xù)的向量表示已成為處理自然語言數(shù)據(jù)的主流方法。近年來,Word2Vec和GloVe等模型被開發(fā)出來,許多深度學(xué)習(xí)模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)也被設(shè)計用于自然語言處理任務(wù)。
情感分析是NLP的一個熱門應(yīng)用,其主要目的是對文本進行情感分類,例如正面、負面和中性情緒。目前,一些支持向量機(SVM)和神經(jīng)網(wǎng)絡(luò)模型被用于情感分析任務(wù)中。
機器翻譯(Machine Translation,MT)是利用計算機程序?qū)⒁环N自然語言翻譯成另一種自然語言的過程。近年來,基于統(tǒng)計機器翻譯和神經(jīng)機器翻譯的方法得到了廣泛應(yīng)用。
文本分類是將文本分為不同類別的任務(wù),例如垃圾郵件識別、新聞分類等。近年來,基于深度學(xué)習(xí)的文本分類方法在自然語言處理中得到了廣泛使用。
問答系統(tǒng)是指向用戶提供自然語言界面,并通過回答用戶問題來獲取所需信息的系統(tǒng)。目前,基于深度學(xué)習(xí)的問答系統(tǒng)越來越受到關(guān)注,例如Google的BERT模型以及Facebook的DrQA模型等。
綜上所述,自然語言處理在國內(nèi)外的研究已經(jīng)涉及到了眾多領(lǐng)域,并且在各個領(lǐng)域中都具有廣闊的應(yīng)用前景。
2 自然語言經(jīng)典知識簡介
2.1 貝葉斯算法
貝葉斯算法有兩個基本的原理:先驗概率和條件概率。首先,我們需要根據(jù)已知的數(shù)據(jù)或經(jīng)驗,估計每個分類的先驗概率。然后,我們需要根據(jù)新的樣本評估每個可能的分類的條件概率,選擇概率最大的分類作為預(yù)測結(jié)果。樸素貝葉斯 (Naive Bayes) 是貝葉斯分類算法中最簡單的一個,一般用于處理二分類或多分類任務(wù)。該算法圍繞著一個核心進行展開:貝葉斯定理。
貝葉斯網(wǎng)絡(luò)實際上是一種模擬人類推理過程中因果關(guān)系的不確定性處理模型,其網(wǎng)絡(luò)拓撲結(jié)構(gòu)是一個有向無環(huán)圖(DAG)。節(jié)點表示隨機變量,它們可以是可觀察到的變量,或隱變量、未知參數(shù)等。認為有因果關(guān)系(或非條件獨立)的變量或命題則用箭頭來連接。若兩個節(jié)點間以一個單箭頭連接在一起,表示其中一個節(jié)點是"因 (parents)“,另一個是"果 (children)”,兩節(jié)點就會產(chǎn)生一個條件概率值??傮w上來說,連接兩個節(jié)點的箭頭代表此兩個隨機變量是具有因果關(guān)系的,或者非條件獨立。例如,假設(shè)節(jié)點E直接會影響到節(jié)點H,即E→H,則用從E指向H的箭頭建立結(jié)點E到結(jié)點H的有向弧 (E,H),權(quán)值(即連接強度)用條件概率P(H|E)來表示。
2.2 最大熵模型
最大熵模型(Maximum Entropy Model)是利用信息論的一些概念和方法,從訓(xùn)練集中學(xué)習(xí)得到一個概率模型,它在所有可能的概率模型中熵最大的模型。最大熵模型的基本思想是:在滿足已知約束條件下,選擇不確定性最大(即:不確定的部分是等可能的)的模型。最大熵模型的學(xué)習(xí)過程就是求解最大熵模型的過程,也就是要確定一個參數(shù)向量,使得訓(xùn)練數(shù)據(jù)的經(jīng)驗熵最大化。
最大熵模型可以用于分類、回歸、序列標(biāo)注等各種機器學(xué)習(xí)任務(wù)。在自然語言處理領(lǐng)域中,最大熵模型常被用于自然語言處理中的詞性標(biāo)注、命名實體識別等任務(wù)。在最大熵模型中,采用拉格朗日乘子法將最大熵模型由一個帶約束的最優(yōu)化問題轉(zhuǎn)化為一個與之等價的無約束的最優(yōu)化問題,它是一個min max問題。通過迭代算法求解這個最優(yōu)化問題,可以得到最大熵模型中的權(quán)重參數(shù)。
綜上所述,最大熵模型是一種常用的概率模型,其基本思想是在已知約束條件下選擇不確定性最大的模型。該模型在自然語言處理中應(yīng)用廣泛,并能夠解決多種機器學(xué)習(xí)任務(wù)。
圖1神經(jīng)機器的翻譯過程
2.3神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)是一種計算模型,它通過多層神經(jīng)元之間的連接模擬人腦的神經(jīng)系統(tǒng),能夠自動學(xué)習(xí)和識別數(shù)據(jù)模式,并在以后的任務(wù)中應(yīng)用這些模式。神經(jīng)網(wǎng)絡(luò)可以被用于分類、回歸、聚類、圖像處理等各種機器學(xué)習(xí)任務(wù),甚至可以被用于人工智能。神經(jīng)網(wǎng)絡(luò)擁有復(fù)雜的結(jié)構(gòu)和參數(shù),通常包括輸入層、隱藏層和輸出層等組成。其中輸入層接收外部輸入數(shù)據(jù),隱藏層對輸入數(shù)據(jù)進行加工處理,并將結(jié)果傳遞到下一層,最終輸出層給出神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果。通過訓(xùn)練神經(jīng)網(wǎng)絡(luò),優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)使得神經(jīng)網(wǎng)絡(luò)的輸出與實際結(jié)果盡可能地接近。
目前常用的神經(jīng)網(wǎng)絡(luò)包括感知機、多層感知機、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。其中,感知機是最簡單的神經(jīng)網(wǎng)絡(luò)模型,只包含輸入層和輸出層;多層感知機(MLP)是一種前饋神經(jīng)網(wǎng)絡(luò),包含至少一個隱藏層,可以解決非線性問題;卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種專門用于圖像和語音處理的神經(jīng)網(wǎng)絡(luò)模型,它通過卷積操作提取圖像和語音的特征信息;循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)則是一種專門用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型,它的隱藏層可以傳遞給下一個時間步驟,從而實現(xiàn)對序列數(shù)據(jù)的記憶和處理。
綜上所述,神經(jīng)網(wǎng)絡(luò)是一種計算模型,能夠自動學(xué)習(xí)和識別數(shù)據(jù)模式并應(yīng)用于各種機器學(xué)習(xí)任務(wù)。常用的神經(jīng)網(wǎng)絡(luò)模型包括感知機、多層感知機、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等。
3 Data Augmentation for Neural Machine Translation with Mix-up
3.1 數(shù)據(jù)增強
數(shù)據(jù)增強(Data Augmentation,簡稱DA),是指根據(jù)現(xiàn)有數(shù)據(jù),合成新數(shù)
據(jù)的一類方法。畢竟數(shù)據(jù)才是真正的效果天花板,有了更多數(shù)據(jù)后可以提升效
果、增強模型泛化能力、提高魯棒性等。
數(shù)據(jù)增強(Data Augmentation)是指通過在原始數(shù)據(jù)集上應(yīng)用一系列變換方法,生成新的訓(xùn)練樣本來增強數(shù)據(jù)集的規(guī)模和多樣性,從而提高深度學(xué)習(xí)模型的泛化能力。這一技術(shù)已經(jīng)被廣泛運用于圖像處理、自然語言處理等領(lǐng)域。
數(shù)據(jù)增強主要分為兩種類型:線下增強(offline augmentation)和線上增強(online augmentation)。線下增強適用于較小的數(shù)據(jù)集,可以通過對原始數(shù)據(jù)進行一些變換,比如旋轉(zhuǎn)、裁剪、平移、鏡像翻轉(zhuǎn)等方式,增加一定倍數(shù)的數(shù)據(jù)集;而線上增強則是在網(wǎng)絡(luò)訓(xùn)練過程中隨機應(yīng)用一定變換方式,每個迭代過程都產(chǎn)生新的數(shù)據(jù)。
除此之外,數(shù)據(jù)增強也可以應(yīng)用于信號處理領(lǐng)域,如時間序列數(shù)據(jù)。通過使用統(tǒng)計方法如殘差或塊自助法,也可以增強數(shù)據(jù)集。在處理高維度、稀疏的生物信號數(shù)據(jù)時,人工合成數(shù)據(jù)通常是非常重要的。
3.2 對于神經(jīng)機器翻譯的軟上下文的數(shù)據(jù)增強
下面要介紹的文章是來自于ACL2019的名叫Soft Contextual Data Augmentation for Neural Machine Translation.文章的主要思想是,將句子中的某個單詞在句子的翻譯解釋中,將其替換為與相近的多個單詞的詞向量的distribution,從而使輸入樣例在機器翻譯的過程中可以更好地識別翻譯句子,提升了模型的魯棒性,且是在自然語言處理領(lǐng)域引入Mix-up思想的具有代表性創(chuàng)作的一篇文章,在研究領(lǐng)域內(nèi)意義重大。接下來介紹一下文章的具體工作。
圖2 ACL2019
在對詞轉(zhuǎn)化為詞向量的工作中對于一組數(shù)據(jù)對< x, y >,x代表訓(xùn)練集而y代表標(biāo)簽,經(jīng)典的one-hot編碼將一個詞翻譯為只有一個分量為1其余都為0的詞向量
而在本文的方法中,我們將one-hot編碼進行了平滑,使其變成一個向量和為1但部分分量都不為0的詞向量(0.2,0.4,0.3,0.1)。在現(xiàn)實意義中,對用的例子就是“打”這個詞把它的意義以distribution的形式給到了“打”,“敲”,“擊”,“拍”上,且概率分別是0.2,0.4,0.3,0.1。因為打是直接對應(yīng)于原單詞的意思,所以其占比也最高,為0.4。平滑后的詞向量接入正常的翻譯工作,乘embedding矩陣得到e,具體如下
此時的e不僅僅表示w自身的含義,而是多個單詞含義的加權(quán)和。
下面我們給出模型的理論公式
這樣做是具有意義的,在訓(xùn)練集中的各個單詞在訓(xùn)練后可以進行更好地翻譯,在原有訓(xùn)練集的組合問題翻譯上具有更高的準(zhǔn)確率,拉近了近義詞的含義,同時提高了模型的魯棒性。實驗和實驗結(jié)果在后面的部分進行介紹。
3.3 序列對序列的Mix-up數(shù)據(jù)增強
圖3 EMNLP2020
下面介紹的這篇關(guān)于序列到序列的Mix-up數(shù)據(jù)增強是來自于EMNLP2020,文章的核心思想是隨機從sequence-to-sequence的訓(xùn)練樣本集中取出兩對樣本和標(biāo)簽,對它們進行線性加權(quán)從而產(chǎn)生新的樣本集,在數(shù)據(jù)增強之后(獲得了更多的訓(xùn)練樣本和標(biāo)簽,雖然這些樣本和標(biāo)簽有可能不是真實存在的)進行模型訓(xùn)練,在原有baseline等對比實驗中都取得了顯著的效果,說明Seq-Mix(文章中提出的方法)是有效值得應(yīng)用和研究的。
一個好的模型應(yīng)該具有好的泛化性,相對于文本來說在替換了句子中的部分主語和狀語等情況下,文章更希望學(xué)習(xí)到句子中詞組(combination)的含義,使得在句子進行了替換之后仍然能夠?qū)W習(xí)到詞組的意思,但這在之前的研究工作中是尚待很好地解決,本文也是希望通過提出Seq-Mix方法來對combination的情況提出較好的解決方案。
在原有的hard替換中,只是通過強制替換掉單詞的部分來產(chǎn)生增強數(shù)據(jù)集且有如下的數(shù)學(xué)模型:
相對于文章的Seq-Mix方法則是對其進行線性加權(quán),對生硬的hard替換進行了平滑操作,這也是為什么模型具有更強泛化性和魯棒性的原因。
在原有的Mixup方法中,λ是一個只關(guān)于分量為0,1的向量,而在本文提出的SeqMix方法中,λ是一個可調(diào)的超參數(shù),將樣本X,Y(矩陣表示)進行加權(quán)求和,同時對標(biāo)簽也進行替換,得到新的樣本然后進行學(xué)習(xí),實驗結(jié)果表明,這種方法是創(chuàng)新且有效的。
4 文章實驗結(jié)果展示
4.1論文①介紹的實驗結(jié)果展示分析
在實驗中我們進行對比的算法有Base,Swap,Dropout,Blank,Smooth和LM,它們的意義分別是:不做數(shù)據(jù)增強;將句子里面的單詞在范圍k內(nèi)隨機交換位置;隨機丟棄單詞;使用占位符替換隨機單詞;從詞庫中隨機選擇單詞替換原單詞,詞庫中每個單詞被選擇的概率與其在語料庫中的詞頻成正比;從詞庫中隨機選擇單詞替換原單詞,每個單詞被選擇的概率符合單語言模型輸出的分布。
圖4 第一篇論文介紹的實驗結(jié)果與分析
圖中論文在德語轉(zhuǎn)英語,西班牙語轉(zhuǎn)英語等四個任務(wù)上將提出的軟替換數(shù)據(jù)增強算法與baseline等進行對比,結(jié)果在各項指標(biāo)上均有提升。注意在第二幅圖中,當(dāng)增大軟替換的概率時,實驗的精準(zhǔn)度隨著概率的增大呈現(xiàn)先增后減的趨勢,這是因為部分小概率的替換可以很好地發(fā)揮軟體換算法思想的作用,去完成翻譯工作模型的泛化,但是當(dāng)替換的程度增大時,句子的意思與原句子的意思發(fā)生了較為的改變,使得模型的訓(xùn)練結(jié)果在替換概率增大時結(jié)果又呈現(xiàn)出了下降的趨勢。
4.2 論文②的實驗結(jié)果展示分析
圖5 第二篇論文介紹的實驗結(jié)果與分析
Mix-up通過sequence to sequence的數(shù)據(jù)增強,將實驗結(jié)果與baseline進行對比,在德語轉(zhuǎn)英語,英語轉(zhuǎn)德語,英語轉(zhuǎn)意大利語和英語轉(zhuǎn)西班牙語中,result都取得了sota的結(jié)果,另外在WMT中,SeqMix的結(jié)果達到了28.1;在SCAN和數(shù)據(jù)庫查詢(SQL Queries)中的junmp、turn-1和query的子實驗中都取得了不錯的改進效果。
5總結(jié)與展望
5.1總結(jié)
報告通過介紹自然語言處理的相關(guān)背景知識,如神經(jīng)網(wǎng)絡(luò)、貝葉斯算法和最大熵模型,自然語言處理的一些研究方向如:機器翻譯、文本分類和國內(nèi)外研究現(xiàn)狀等等對自然語言處理研究領(lǐng)域進行了大致的介紹,然后又介紹了關(guān)于數(shù)據(jù)增強的有關(guān)概念。接著講解了19年和20年兩篇關(guān)于Mix-up思想的文本翻譯文章。文章大致闡述了cv領(lǐng)域中的Mix-up方法思想的延申拓展到文本領(lǐng)域同樣也有不錯的效果,在訓(xùn)練樣本集上經(jīng)過詞向量替換和線性加權(quán)的訓(xùn)練方法,使模型對已有的組合程度更復(fù)雜的文本集上進行翻譯的工作可以取得好的效果和魯棒性。本文主要探討了自然語言處理在文本分類任務(wù)中的應(yīng)用。通過對比不同模型的性能表現(xiàn),我們發(fā)現(xiàn)隨著模型訓(xùn)練量的增加,模型的準(zhǔn)確率也得到了顯著提升。同時,對于特定領(lǐng)域的文本分類任務(wù),使用預(yù)訓(xùn)練模型和引入領(lǐng)域知識也能夠有效提高模型的性能。
5.2展望
自然語言處理技術(shù)在各行各業(yè)中的應(yīng)用越來越多,未來將繼續(xù)迎來更廣泛的應(yīng)用場景。未來自然語言處理研究及應(yīng)用的發(fā)展方向包括但不限于以下幾個方面:1)進一步優(yōu)化基于深度學(xué)習(xí)的自然語言處理技術(shù),如自然語言生成、問答系統(tǒng)等;2)加強跨語言自然語言處理的研究,提高不同語言之間的交互體驗;3)發(fā)揮自然語言處理在智能客服、社交媒體分析、情感分析等領(lǐng)域的應(yīng)用,并探索更多應(yīng)用場景。我們相信,未來自然語言處理技術(shù)的發(fā)展將會為人類社會帶來更多機遇與挑戰(zhàn)。文章來源:http://www.zghlxwxcb.cn/news/detail-438971.html
參考文獻
[1] Li B, Hou Y, Che W. Data Augmentation Approaches in Natural Language Processing: A Survey[J]. AI Open, 2022, 3: 71-90.
[2] Gao F, Zhu J, Wu L, 等. Soft Contextual Data Augmentation for Neural Machine Translation[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 5539-5544.
[3] Guo D, Kim Y, Rush A. Sequence-Level Mixed Sample Data Augmentation[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 5547-5552.
[4] Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond Empirical Risk Minimization[C]//International Conference on Learning Representations. 2023.
[5] Yun S, Han D, Oh S J, 等. CutMix: Regularization Strategy to Train Strong Classifiers With Localizable Features[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 6023-6032.
[6] Uddin A F M S, Monira M S, Shin W, et al. SaliencyMix: A Saliency Guided Data Augmentation Strategy for Better Regularization[C]//International Conference on Learning Representations. 2023.
[7] Kim J, Choo W, Jeong H, et al. Co-Mixup: Saliency Guided Joint Mixup with Supermodular Diversity[C]//International Conference on Learning Representations. 2023.文章來源地址http://www.zghlxwxcb.cn/news/detail-438971.html
到了這里,關(guān)于自然語言處理與其Mix-up數(shù)據(jù)增強方法報告的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!