国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

自然語言處理-情感分析及數(shù)據(jù)集

這篇具有很好參考價(jià)值的文章主要介紹了自然語言處理-情感分析及數(shù)據(jù)集。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

情感分析及數(shù)據(jù)集

隨著在線社交媒體和評論平臺的快速發(fā)展,大量評論的數(shù)據(jù)被記錄下來。這些數(shù)據(jù)具有支持決策過程的巨大潛力。?情感分析(sentiment analysis)研究人們在文本中 (如產(chǎn)品評論、博客評論和論壇討論等)“隱藏”的情緒。 它在廣泛應(yīng)用于政治(如公眾對政策的情緒分析)、 金融(如市場情緒分析)和營銷(如產(chǎn)品研究和品牌管理)等領(lǐng)域。

由于情感可以被分類為離散的極性或尺度(例如,積極的和消極的),我們可以將情感分析看作一項(xiàng)文本分類任務(wù),它將可變長度的文本序列轉(zhuǎn)換為固定長度的文本類別。在本章中,我們將使用斯坦福大學(xué)的大型電影評論數(shù)據(jù)集(large movie review dataset)進(jìn)行情感分析。它由一個(gè)訓(xùn)練集和一個(gè)測試集組成,其中包含從IMDb下載的25000個(gè)電影評論。在這兩個(gè)數(shù)據(jù)集中,“積極”和“消極”標(biāo)簽的數(shù)量相同,表示不同的情感極性。

import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

讀取數(shù)據(jù)集

首先,下載并提取路徑../data/aclImdb中的IMDb評論數(shù)據(jù)集。

#@save
d2l.DATA_HUB['aclImdb'] = (
    'http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz',
    '01ada507287d82875905620988597833ad4e0903')

data_dir = d2l.download_extract('aclImdb', 'aclImdb')

接下來,讀取訓(xùn)練和測試數(shù)據(jù)集。每個(gè)樣本都是一個(gè)評論及其標(biāo)簽:1表示“積極”,0表示“消極”。

#@save
def read_imdb(data_dir, is_train):
    """讀取IMDb評論數(shù)據(jù)集文本序列和標(biāo)簽"""
    data, labels = [], []
    for label in ('pos', 'neg'):
        folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
                                   label)
        for file in os.listdir(folder_name):
            with open(os.path.join(folder_name, file), 'rb') as f:
                review = f.read().decode('utf-8').replace('\n', '')
                data.append(review)
                labels.append(1 if label == 'pos' else 0)
    return data, labels

train_data = read_imdb(data_dir, is_train=True)
print('訓(xùn)練集數(shù)目:', len(train_data[0]))
for x, y in zip(train_data[0][:3], train_data[1][:3]):
    print('標(biāo)簽:', y, 'review:', x[0:60])

訓(xùn)練集數(shù)目: 25000 標(biāo)簽: 1 review: Zentropa has much in common with The Third Man, another noir 標(biāo)簽: 1 review: Zentropa is the most original movie I've seen in years. If y 標(biāo)簽: 1 review: Lars Von Trier is never backward in trying out new technique?

預(yù)處理數(shù)據(jù)集

將每個(gè)單詞作為一個(gè)詞元,過濾掉出現(xiàn)不到5次的單詞,我們從訓(xùn)練數(shù)據(jù)集中創(chuàng)建一個(gè)詞表。

train_tokens = d2l.tokenize(train_data[0], token='word')
vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=['<pad>'])

在詞元化之后,讓我們繪制評論詞元長度的直方圖。

d2l.set_figsize()
d2l.plt.xlabel('# tokens per review')
d2l.plt.ylabel('count')
d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));

自然語言處理-情感分析及數(shù)據(jù)集,人工智能,PyTorch,代碼筆記,自然語言處理,人工智能?

正如我們所料,評論的長度各不相同。為了每次處理一小批量這樣的評論,我們通過截?cái)嗪吞畛鋵⒚總€(gè)評論的長度設(shè)置為500。

num_steps = 500  # 序列長度
train_features = np.array([d2l.truncate_pad(
    vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
print(train_features.shape)

(25000, 500) [07:12:31] ../src/storage/storage.cc:196: Using Pooled (Naive) StorageManager for CPU

創(chuàng)建數(shù)據(jù)迭代器

現(xiàn)在我們可以創(chuàng)建數(shù)據(jù)迭代器了。在每次迭代中,都會(huì)返回一小批量樣本。

train_iter = d2l.load_array((train_features, train_data[1]), 64)

for X, y in train_iter:
    print('X:', X.shape, ', y:', y.shape)
    break
print('小批量數(shù)目:', len(train_iter))

X: (64, 500) , y: (64,)

小批量數(shù)目: 391?

整合代碼

最后,我們將上述步驟封裝到load_data_imdb函數(shù)中。它返回訓(xùn)練和測試數(shù)據(jù)迭代器以及IMDb評論數(shù)據(jù)集的詞表。文章來源地址http://www.zghlxwxcb.cn/news/detail-809952.html

#@save
def load_data_imdb(batch_size, num_steps=500):
    """返回?cái)?shù)據(jù)迭代器和IMDb評論數(shù)據(jù)集的詞表"""
    data_dir = d2l.download_extract('aclImdb', 'aclImdb')
    train_data = read_imdb(data_dir, True)
    test_data = read_imdb(data_dir, False)
    train_tokens = d2l.tokenize(train_data[0], token='word')
    test_tokens = d2l.tokenize(test_data[0], token='word')
    vocab = d2l.Vocab(train_tokens, min_freq=5)
    train_features = np.array([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
    test_features = np.array([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in test_tokens])
    train_iter = d2l.load_array((train_features, train_data[1]), batch_size)
    test_iter = d2l.load_array((test_features, test_data[1]), batch_size,
                               is_train=False)
    return train_iter, test_iter, vocab

到了這里,關(guān)于自然語言處理-情感分析及數(shù)據(jù)集的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 華為云API自然語言處理的魅力—AI情感分析、文本分析

    華為云API自然語言處理的魅力—AI情感分析、文本分析

    云服務(wù)、API、SDK,調(diào)試,查看,我都行 閱讀短文您可以學(xué)習(xí)到:人工智能AI自言語言的情感分析、文本分詞、文本翻譯 API插件支持?VS Code IDE、IntelliJ IDEA等平臺、以及華為云自研?CodeArts IDE,基于華為云服務(wù)提供的能力,幫助開發(fā)者更高效、便捷的搭建應(yīng)用。API插件關(guān)聯(lián)華為

    2024年02月07日
    瀏覽(21)
  • 自然語言處理 Paddle NLP - 情感分析技術(shù)及應(yīng)用-理論

    自然語言處理 Paddle NLP - 情感分析技術(shù)及應(yīng)用-理論

    基礎(chǔ) 自然語言處理(NLP) 自然語言處理PaddleNLP-詞向量應(yīng)用展示 自然語言處理(NLP)-前預(yù)訓(xùn)練時(shí)代的自監(jiān)督學(xué)習(xí) 自然語言處理PaddleNLP-預(yù)訓(xùn)練語言模型及應(yīng)用 自然語言處理PaddleNLP-文本語義相似度計(jì)算(ERNIE-Gram) 自然語言處理PaddleNLP-詞法分析技術(shù)及其應(yīng)用 自然語言處理Pa

    2024年02月09日
    瀏覽(34)
  • SpringBoot進(jìn)行自然語言處理,利用Hanlp進(jìn)行文本情感分析

    SpringBoot進(jìn)行自然語言處理,利用Hanlp進(jìn)行文本情感分析

    . # ??前言 本文主要是SpringBoot進(jìn)行自然語言處理,利用Hanlp進(jìn)行文本情感分析,如果有什么需要改進(jìn)的地方還請大佬指出?? ??作者簡介:大家好,我是青衿?? ??博客首頁:CSDN主頁放風(fēng)講故事 ??每日一句:努力一點(diǎn),優(yōu)秀一點(diǎn) 自然語言處理已經(jīng)進(jìn)入大模型時(shí)代,然而

    2024年02月05日
    瀏覽(24)
  • 自然語言處理 Paddle NLP - 情感分析技術(shù)及應(yīng)用SKEP-實(shí)踐

    基礎(chǔ) 自然語言處理(NLP) 自然語言處理PaddleNLP-詞向量應(yīng)用展示 自然語言處理(NLP)-前預(yù)訓(xùn)練時(shí)代的自監(jiān)督學(xué)習(xí) 自然語言處理PaddleNLP-預(yù)訓(xùn)練語言模型及應(yīng)用 自然語言處理PaddleNLP-文本語義相似度計(jì)算(ERNIE-Gram) 自然語言處理PaddleNLP-詞法分析技術(shù)及其應(yīng)用 自然語言處理Pa

    2024年02月09日
    瀏覽(23)
  • 【數(shù)據(jù)挖掘與人工智能自然語言處理】自然語言處理和人工智能:如何利用自然語言處理技術(shù)進(jìn)行數(shù)據(jù)挖掘

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著互聯(lián)網(wǎng)和大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)挖掘已成為各個(gè)行業(yè)的熱門話題。數(shù)據(jù)挖掘的核心在于發(fā)現(xiàn)數(shù)據(jù)中的有價(jià)值信息,而自然語言處理(NLP)技術(shù)是實(shí)現(xiàn)這一目標(biāo)的重要手段。本文旨在通過自然語言處理技術(shù)進(jìn)行數(shù)據(jù)挖掘,為數(shù)據(jù)挖掘提供一

    2024年02月05日
    瀏覽(103)
  • 自然語言處理實(shí)戰(zhàn)項(xiàng)目12-基于注意力機(jī)制的CNN-BiGRU模型的情感分析任務(wù)的實(shí)踐

    大家好,我是微學(xué)AI,今天給大家介紹一下自然語言處理實(shí)戰(zhàn)項(xiàng)目12-基于注意力機(jī)制的CNN-BiGRU模型的情感分析任務(wù)的實(shí)踐,本文將介紹一種基于注意力機(jī)制的CNN-BiGRU模型,并將其應(yīng)用于實(shí)際項(xiàng)目中。我們將使用多條CSV數(shù)據(jù)樣例,并展示如何加載數(shù)據(jù)、訓(xùn)練模型、輸出準(zhǔn)確率和

    2024年02月13日
    瀏覽(32)
  • 人工智能與大數(shù)據(jù)面試指南——自然語言處理(NLP)

    分類目錄:《人工智能與大數(shù)據(jù)面試指南》總目錄 《人工智能與大數(shù)據(jù)面試指南》系列下的內(nèi)容會(huì) 持續(xù)更新 ,有需要的讀者可以 收藏 文章,以及時(shí)獲取文章的最新內(nèi)容。 自然語言處理(NLP)領(lǐng)域有哪些常見任務(wù)? 基礎(chǔ)任務(wù) 中文分詞:將一串連續(xù)的字符構(gòu)成的句子分割成

    2024年02月11日
    瀏覽(121)
  • 自然語言處理(NLP)一直是人工智能領(lǐng)域的一項(xiàng)重要任務(wù),其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析?

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 自然語言處理(NLP)一直是人工智能領(lǐng)域的一項(xiàng)重要任務(wù),其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析,成為一個(gè)重要研究課題。近年來,隨著計(jì)算能力的提升和硬件性能的增強(qiáng),大規(guī)模

    2024年02月09日
    瀏覽(21)
  • 【自然語言處理(NLP)】基于循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)情感分類

    【自然語言處理(NLP)】基于循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)情感分類

    活動(dòng)地址:[CSDN21天學(xué)習(xí)挑戰(zhàn)賽](https://marketing.csdn.net/p/bdabfb52c5d56532133df2adc1a728fd) 作者簡介 :在校大學(xué)生一枚,華為云享專家,阿里云星級博主,騰云先鋒(TDP)成員,云曦智劃項(xiàng)目總負(fù)責(zé)人,全國高等學(xué)校計(jì)算機(jī)教學(xué)與產(chǎn)業(yè)實(shí)踐資源建設(shè)專家委員會(huì)(TIPCC)志愿者,以及編程

    2024年02月07日
    瀏覽(26)
  • 自然語言處理與大數(shù)據(jù):如何提高數(shù)據(jù)分析效率

    自然語言處理(NLP,Natural Language Processing)是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的一個(gè)分支,研究如何讓計(jì)算機(jī)理解、生成和處理人類語言。自然語言處理技術(shù)廣泛應(yīng)用于各個(gè)領(lǐng)域,包括機(jī)器翻譯、語音識別、情感分析、文本摘要等。 隨著數(shù)據(jù)的大量生成和存儲,大數(shù)據(jù)技術(shù)已經(jīng)成為

    2024年04月09日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包