清華大學馭風計劃課程鏈接?
學堂在線 - 精品在線課程學習平臺 (xuetangx.com)
代碼和報告均為本人自己實現(xiàn)(實驗滿分),只展示主要任務實驗結(jié)果,如果需要詳細的實驗報告或者代碼可以私聊博主
有任何疑問或者問題,也歡迎私信博主,大家可以相互討論交流喲~~
案例簡介
情感分析旨在挖掘文本中的主觀信息,它是自然語言處理中的經(jīng)典任務。在本次任務中,我們將在影評 文本數(shù)據(jù)集(Rotten Tomato)上進行情感分析,通過實現(xiàn)課堂講授的模型方法,深刻體會自然語言處 理技術在生活中的應用。 同學們需要實現(xiàn)自己的情感分析器,包括特征提取器(可以選擇詞袋模型、詞向量模型和預訓練模 型)、簡單的線性分類器以及梯度下降函數(shù)。隨后在數(shù)據(jù)集上進行訓練和驗證。我們提供了代碼框架, 同學們只需補全 model.py 中的兩個函數(shù)。
數(shù)據(jù)說明
我們使用來自Rotten Tomato的影評文本數(shù)據(jù)。其中訓練集 data_rt.train 和測試集 data_rt.test 均 包含了3554條影評,每條影評包含了文本和情感標簽。示例如下:
其中, +1 表示這條影評蘊涵了正面感情,后面是影評的具體內(nèi)容。
文本特征提取?
?TODO:補全 featureExtractor 函數(shù) 在這個步驟中,同學們需要讀取給定的訓練和測試數(shù)據(jù)集,并提取出文本中的特征,輸出特征向量。同學們需要實現(xiàn)詞袋模型、詞向量模型和預訓練模型(選做)來生成句子表示,并對比不同方法的表現(xiàn)有何差異。
Bag of Words得到句子的0-1向量(選做:用TFIDF計算句子向量)
Word2Vec詞向量求和/取平均(選做:實現(xiàn)Doc2Vec[1])
使用BERT得到[CLS]向量/詞的隱狀態(tài)取平均(選做)
訓練分類器?
TODO:補全 learnPredictor 函數(shù) 我們提供的訓練數(shù)據(jù)集中,每句話的標簽在文本之前,其中 +1 表示這句話蘊涵了正面感情, -1 表示這 句話蘊涵了負面感情。因此情感分析問題就成為一個分類問題。
同學們需要實現(xiàn)一個簡單的線性分類器,并推導出相應的梯度下降函數(shù)。
實驗與結(jié)果分析
在訓練集上完成訓練后,同學們需要在測試集上測試分類器性能。本小節(jié)要求同學們畫出訓練集上的損 失函數(shù)下降曲線和測試集的最終結(jié)果(損失函數(shù)、準確率),并對結(jié)果進行分析。?
評分要求
同學們需要提交源代碼和實驗報告。實驗報告中應包含以下內(nèi)容: 對hinge loss反向傳播的理論推導,請寫出參數(shù)的更新公式。 對實驗結(jié)果的分析,請描述采用的模型結(jié)構(gòu)、模型在訓練集上的損失函數(shù)下降曲線和測試集的最終 結(jié)果,并對結(jié)果進行分析。分析可以從模型的泛化能力、參數(shù)對模型性能的影響以及不同特征的影 響等方面進行。?
[1] Distributed Representations of Sentences and Documents. https://arxiv.org/pdf/1405.4053.pdf
實驗結(jié)果
1,反向傳播推導
2,文本特征提取?
2.1 使用 BOW 作為特征
2.2 使用 N-gram 作為特征
?從圖中可以看出 loss 曲線不管是訓練還是訓練的 loss 都在下降,跟前面的情況類似,也是訓練的 loss 下降很快,而測試的 loss 下降較為平緩。從準確率圖來看訓練的也幾乎飽滿,測試也是隨著周期變大達到最高,最終 test 的錯誤值為 0.238,達到新低。可以看出我們調(diào)參的方法非常有效,通過對多個學習率的運行,找出了對于每個級別的最佳超參數(shù),并且精準把控訓練輪數(shù)達到最優(yōu)結(jié)果。
2.3 使用 BERT 得到[CLS]向量作為特征
文章來源:http://www.zghlxwxcb.cn/news/detail-826719.html
3,總結(jié)三種方法對比差異:
這三種方法使用了不同的特征提取方式,導致最終結(jié)果的差異。讓我詳細解釋一下可能的區(qū)別和影響。 文章來源地址http://www.zghlxwxcb.cn/news/detail-826719.html
到了這里,關于【自然語言處理】實驗3,文本情感分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!