国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【自然語言處理】實驗3,文本情感分析

這篇具有很好參考價值的文章主要介紹了【自然語言處理】實驗3,文本情感分析。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

清華大學馭風計劃課程鏈接?

學堂在線 - 精品在線課程學習平臺 (xuetangx.com)

代碼和報告均為本人自己實現(xiàn)(實驗滿分),只展示主要任務實驗結(jié)果,如果需要詳細的實驗報告或者代碼可以私聊博主

有任何疑問或者問題,也歡迎私信博主,大家可以相互討論交流喲~~

案例簡介

【自然語言處理】實驗3,文本情感分析,自然語言處理,自然語言處理,人工智能

情感分析旨在挖掘文本中的主觀信息,它是自然語言處理中的經(jīng)典任務。在本次任務中,我們將在影評 文本數(shù)據(jù)集(Rotten Tomato)上進行情感分析,通過實現(xiàn)課堂講授的模型方法,深刻體會自然語言處 理技術在生活中的應用。 同學們需要實現(xiàn)自己的情感分析器,包括特征提取器(可以選擇詞袋模型、詞向量模型和預訓練模 型)、簡單的線性分類器以及梯度下降函數(shù)。隨后在數(shù)據(jù)集上進行訓練和驗證。我們提供了代碼框架, 同學們只需補全 model.py 中的兩個函數(shù)。

數(shù)據(jù)說明

我們使用來自Rotten Tomato的影評文本數(shù)據(jù)。其中訓練集 data_rt.train 和測試集 data_rt.test 均 包含了3554條影評,每條影評包含了文本和情感標簽。示例如下:

【自然語言處理】實驗3,文本情感分析,自然語言處理,自然語言處理,人工智能

其中, +1 表示這條影評蘊涵了正面感情,后面是影評的具體內(nèi)容。

文本特征提取?

?TODO:補全 featureExtractor 函數(shù) 在這個步驟中,同學們需要讀取給定的訓練和測試數(shù)據(jù)集,并提取出文本中的特征,輸出特征向量。同學們需要實現(xiàn)詞袋模型、詞向量模型和預訓練模型(選做)來生成句子表示,并對比不同方法的表現(xiàn)有何差異。

Bag of Words得到句子的0-1向量(選做:用TFIDF計算句子向量)

Word2Vec詞向量求和/取平均(選做:實現(xiàn)Doc2Vec[1])

使用BERT得到[CLS]向量/詞的隱狀態(tài)取平均(選做)

訓練分類器?

TODO:補全 learnPredictor 函數(shù) 我們提供的訓練數(shù)據(jù)集中,每句話的標簽在文本之前,其中 +1 表示這句話蘊涵了正面感情, -1 表示這 句話蘊涵了負面感情。因此情感分析問題就成為一個分類問題。

【自然語言處理】實驗3,文本情感分析,自然語言處理,自然語言處理,人工智能

同學們需要實現(xiàn)一個簡單的線性分類器,并推導出相應的梯度下降函數(shù)。

實驗與結(jié)果分析

在訓練集上完成訓練后,同學們需要在測試集上測試分類器性能。本小節(jié)要求同學們畫出訓練集上的損 失函數(shù)下降曲線和測試集的最終結(jié)果(損失函數(shù)、準確率),并對結(jié)果進行分析。?

評分要求

同學們需要提交源代碼和實驗報告。實驗報告中應包含以下內(nèi)容: 對hinge loss反向傳播的理論推導,請寫出參數(shù)的更新公式。 對實驗結(jié)果的分析,請描述采用的模型結(jié)構(gòu)、模型在訓練集上的損失函數(shù)下降曲線和測試集的最終 結(jié)果,并對結(jié)果進行分析。分析可以從模型的泛化能力、參數(shù)對模型性能的影響以及不同特征的影 響等方面進行。?

[1] Distributed Representations of Sentences and Documents. https://arxiv.org/pdf/1405.4053.pdf

實驗結(jié)果

1,反向傳播推導

【自然語言處理】實驗3,文本情感分析,自然語言處理,自然語言處理,人工智能

2,文本特征提取?

2.1 使用 BOW 作為特征

【自然語言處理】實驗3,文本情感分析,自然語言處理,自然語言處理,人工智能

從 loss 圖來看訓練的 loss 下降比測試的 loss 快很多,但是相同點就是都在下降,雖然中間測試的 loss 隨著周期增大突然有個小的升高,但是最終仍然總體趨勢是下降的。然后再從訓練準確率來看 train 的訓練最終幾乎飽滿了,測試的正確率也是最終達到最高,所以開始我前面對于最佳學習率和迭代次數(shù)的精準把控做的很好,才能得出最優(yōu)結(jié)果,最終測試錯誤值來到了 0.263 。

2.2 使用 N-gram 作為特征

【自然語言處理】實驗3,文本情感分析,自然語言處理,自然語言處理,人工智能?從圖中可以看出 loss 曲線不管是訓練還是訓練的 loss 都在下降,跟前面的情況類似,也是訓練的 loss 下降很快,而測試的 loss 下降較為平緩。從準確率圖來看訓練的也幾乎飽滿,測試也是隨著周期變大達到最高,最終 test 的錯誤值為 0.238,達到新低。可以看出我們調(diào)參的方法非常有效,通過對多個學習率的運行,找出了對于每個級別的最佳超參數(shù),并且精準把控訓練輪數(shù)達到最優(yōu)結(jié)果。

2.3 使用 BERT 得到[CLS]向量作為特征

【自然語言處理】實驗3,文本情感分析,自然語言處理,自然語言處理,人工智能

首先從 loss 圖可以看出訓練和測試的 loss 的曲線非常接近,沒有出現(xiàn)前兩個特征提取方法中差別較大的情況,總體趨勢也是訓練的 loss 下降更快,測試的 loss 緊跟其后。從準確率圖來看,訓練和測試的準確率曲線幾乎是同趨勢變化,特別已經(jīng)很平穩(wěn),說明訓練基本已經(jīng)充分了。最終測試的錯誤率來到了新底,達到了約為 0.197 這個相比于前 面兩種方法更好的結(jié)果。

3,總結(jié)三種方法對比差異:

這三種方法使用了不同的特征提取方式,導致最終結(jié)果的差異。讓我詳細解釋一下可能的區(qū)別和影響。 文章來源地址http://www.zghlxwxcb.cn/news/detail-826719.html

詞袋特征提取(第一個方法)
這個方法簡單地對文本進行詞級別的計數(shù),每個單詞作為一個特征,記錄其出現(xiàn)的次數(shù)。缺點:忽略了單詞之間的順序和上下文信息。如果兩個句子有相似的單詞分布,但是順序不同,這種方法就不能捕捉到它們的相似性。
N-Gram 特征提取(第二個方法)
這個方法根據(jù)指定的 N 值(可以是單詞級別或字符級別)提取 N-Gram 特征,可以是詞級別的 N-Gram 或字符級別的 N-Gram 還可以是混合級別的 N-Gram。
優(yōu)點 :能夠更全面地考慮到文本中的不同信息,從而提高了對文本特征的表示能力。詞級別的 N-Gram 能夠捕捉單詞之間的關系,而字符級別的 N-Gram 則能夠捕捉到更細小的特征和局部模式,這樣結(jié)合起來可以在一定程度上彌補彼此的不足,提高特征提取的效果。因此,混合級別的 N-Gram 特征提取方法可能比單一級別的 N-Gram 提取更有效,能夠更全面地表示文本特征
缺點 :對于大量的文本數(shù)據(jù),特征空間可能會變得非常大,導致稀疏性增加,同時可能引入一些噪音特征。
BERT 特征提取(第三個方法)
使用預訓練的 BERT 模型提取文本的特征向量,提取 [CLS] token 對應的隱藏狀態(tài)作為整個句子的表示。
優(yōu)點 :BERT 模型在訓練中學習到了大量語言表示,能夠捕捉更高級別、更全局的語義和句子系。
缺點 :計算成本較高,即使是對于輕量化版本的 BERT 模型,也需要更多的計算資源,比如在我的實驗里運行 20 輪即使使用 GPU 也需要 40 分鐘才能跑完,相對于其他兩種方法非常耗時。
當綜合考慮時 ,BERT 特征提取方法表現(xiàn)更出色,因為它能夠捕捉更加豐富和高級別的語義信息。相比之下,傳統(tǒng)的詞袋模型和 N-Gram 方法有時可能忽視句子的語義和上下文信息,在表現(xiàn)上稍顯不足。然而,混合級別的 N-Gram 方法則能夠在一定程度上彌補這些傳統(tǒng)方法的缺陷。結(jié)合了詞級別和字符級別的信息,這種方法更全面地考慮了文本的局部模式和全局特征,使得其能夠更有效地提取特征。至于為什么 BERT 特征提取方法更為優(yōu)越,我認為原因在于 BERT 模型經(jīng)過大規(guī)模訓練,具備了對語言表示更全面的學習能力。它能夠理解和捕捉到文本中更深層次、更復雜的語義關系,因此在處理這次情感分析實驗時具有更好的表現(xiàn)。

到了這里,關于【自然語言處理】實驗3,文本情感分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 自然語言處理2——輕松入門情感分析 - Python實戰(zhàn)指南

    自然語言處理2——輕松入門情感分析 - Python實戰(zhàn)指南

    情感分析是一項強大的數(shù)據(jù)分析工具,它能夠幫助我們深入理解文本背后的情感色彩。在企業(yè)和社交媒體中,情感分析被廣泛應用,以洞察用戶的情感傾向,改善產(chǎn)品和服務,提升用戶體驗。本篇博客將帶您輕松入門情感分析,使用Python中常見的情感分析庫進行實戰(zhàn)指南。

    2024年02月03日
    瀏覽(36)
  • 自然語言處理 Paddle NLP - 情感分析技術及應用-理論

    自然語言處理 Paddle NLP - 情感分析技術及應用-理論

    基礎 自然語言處理(NLP) 自然語言處理PaddleNLP-詞向量應用展示 自然語言處理(NLP)-前預訓練時代的自監(jiān)督學習 自然語言處理PaddleNLP-預訓練語言模型及應用 自然語言處理PaddleNLP-文本語義相似度計算(ERNIE-Gram) 自然語言處理PaddleNLP-詞法分析技術及其應用 自然語言處理Pa

    2024年02月09日
    瀏覽(33)
  • 自然語言處理 Paddle NLP - 情感分析技術及應用SKEP-實踐

    基礎 自然語言處理(NLP) 自然語言處理PaddleNLP-詞向量應用展示 自然語言處理(NLP)-前預訓練時代的自監(jiān)督學習 自然語言處理PaddleNLP-預訓練語言模型及應用 自然語言處理PaddleNLP-文本語義相似度計算(ERNIE-Gram) 自然語言處理PaddleNLP-詞法分析技術及其應用 自然語言處理Pa

    2024年02月09日
    瀏覽(21)
  • 華為Could API人工智能系列——自然語言處理——屬性級情感分析

    華為Could API人工智能系列——自然語言處理——屬性級情感分析

    云原生時代,開發(fā)者們的編程方式、編程習慣都發(fā)生了天翻地覆的變化,大家逐漸地習慣在云端構(gòu)建自己的應用。作為新一代的開發(fā)者們,如何更快速了解云,學習云,使用云,更便捷、更智能的開發(fā)代碼,從而提升我們的開發(fā)效率,是當前最熱門的話題之一,而Huawei Cloud

    2024年02月04日
    瀏覽(34)
  • 自然語言處理實戰(zhàn)項目12-基于注意力機制的CNN-BiGRU模型的情感分析任務的實踐

    大家好,我是微學AI,今天給大家介紹一下自然語言處理實戰(zhàn)項目12-基于注意力機制的CNN-BiGRU模型的情感分析任務的實踐,本文將介紹一種基于注意力機制的CNN-BiGRU模型,并將其應用于實際項目中。我們將使用多條CSV數(shù)據(jù)樣例,并展示如何加載數(shù)據(jù)、訓練模型、輸出準確率和

    2024年02月13日
    瀏覽(31)
  • 5.Python數(shù)據(jù)分析項目之文本分類-自然語言處理

    5.Python數(shù)據(jù)分析項目之文本分類-自然語言處理

    預測類數(shù)據(jù)分析項目 流程 具體操作 基本查看 查看缺失值(可以用直接查看方式isnull、圖像查看方式查看缺失值missingno)、查看數(shù)值類型特征與非數(shù)值類型特征、一次性繪制所有特征的分布圖像 預處理 缺失值處理(填充)拆分數(shù)據(jù)(獲取有需要的值) 、統(tǒng)一數(shù)據(jù)格式、特征

    2024年02月03日
    瀏覽(46)
  • 【自然語言處理(NLP)】基于循環(huán)神經(jīng)網(wǎng)絡實現(xiàn)情感分類

    【自然語言處理(NLP)】基于循環(huán)神經(jīng)網(wǎng)絡實現(xiàn)情感分類

    活動地址:[CSDN21天學習挑戰(zhàn)賽](https://marketing.csdn.net/p/bdabfb52c5d56532133df2adc1a728fd) 作者簡介 :在校大學生一枚,華為云享專家,阿里云星級博主,騰云先鋒(TDP)成員,云曦智劃項目總負責人,全國高等學校計算機教學與產(chǎn)業(yè)實踐資源建設專家委員會(TIPCC)志愿者,以及編程

    2024年02月07日
    瀏覽(25)
  • 自然語言處理實戰(zhàn)項目11-閱讀理解項目的數(shù)據(jù)處理與訓練詳細講解,實驗結(jié)果與分析

    自然語言處理實戰(zhàn)項目11-閱讀理解項目的數(shù)據(jù)處理與訓練詳細講解,實驗結(jié)果與分析

    大家好,我是微學AI,今天給大家介紹一下自然語言處理實戰(zhàn)項目11-閱讀理解項目的數(shù)據(jù)處理與訓練詳細講解,閱讀理解任務目標是讓計算機從給定的文章中理解并回答問題。為了完成這個任務,我們需要對給定的數(shù)據(jù)進行處理和訓練。該任務是一個涉及多個步驟和技術的復

    2024年02月09日
    瀏覽(22)
  • 自然語言處理—文本分類綜述/什么是文本分類

    自然語言處理—文本分類綜述/什么是文本分類

    最近在學習文本分類,讀了很多博主的文章,要么已經(jīng)嚴重過時(還在一個勁介紹SVM、貝葉斯),要么就是機器翻譯的別人的英文論文,幾乎看遍全文,竟然沒有一篇能看的綜述,花了一個月時間,參考了很多文獻,特此寫下此文。 https://www.processon.com/mindmap/61888043e401fd453a21e

    2023年04月08日
    瀏覽(30)
  • 自然語言之文本預處理

    自然語言之文本預處理

    概念 分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符。分詞過程就是找到這樣分界符的過程. 作用 詞作為語言

    2024年02月06日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包