国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<i id="2zfck"><input id="2zfck"></input></i>

自然語言處理-情感分析及數(shù)據(jù)集

2年前作者：白云如幻分類：Toy博客閱讀(27)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了自然語言處理-情感分析及數(shù)據(jù)集。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

情感分析及數(shù)據(jù)集

隨著在線社交媒體和評論平臺的快速發(fā)展，大量評論的數(shù)據(jù)被記錄下來。這些數(shù)據(jù)具有支持決策過程的巨大潛力。?情感分析（sentiment analysis）研究人們在文本中（如產(chǎn)品評論、博客評論和論壇討論等）“隱藏”的情緒。它在廣泛應(yīng)用于政治（如公眾對政策的情緒分析）、金融（如市場情緒分析）和營銷（如產(chǎn)品研究和品牌管理）等領(lǐng)域。

由于情感可以被分類為離散的極性或尺度（例如，積極的和消極的），我們可以將情感分析看作一項(xiàng)文本分類任務(wù)，它將可變長度的文本序列轉(zhuǎn)換為固定長度的文本類別。在本章中，我們將使用斯坦福大學(xué)的大型電影評論數(shù)據(jù)集（large movie review dataset）進(jìn)行情感分析。它由一個(gè)訓(xùn)練集和一個(gè)測試集組成，其中包含從IMDb下載的25000個(gè)電影評論。在這兩個(gè)數(shù)據(jù)集中，“積極”和“消極”標(biāo)簽的數(shù)量相同，表示不同的情感極性。

import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

讀取數(shù)據(jù)集

首先，下載并提取路徑../data/aclImdb中的IMDb評論數(shù)據(jù)集。

#@save
d2l.DATA_HUB['aclImdb'] = (
    'http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz',
    '01ada507287d82875905620988597833ad4e0903')

data_dir = d2l.download_extract('aclImdb', 'aclImdb')

接下來，讀取訓(xùn)練和測試數(shù)據(jù)集。每個(gè)樣本都是一個(gè)評論及其標(biāo)簽：1表示“積極”，0表示“消極”。

#@save
def read_imdb(data_dir, is_train):
    """讀取IMDb評論數(shù)據(jù)集文本序列和標(biāo)簽"""
    data, labels = [], []
    for label in ('pos', 'neg'):
        folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
                                   label)
        for file in os.listdir(folder_name):
            with open(os.path.join(folder_name, file), 'rb') as f:
                review = f.read().decode('utf-8').replace('\n', '')
                data.append(review)
                labels.append(1 if label == 'pos' else 0)
    return data, labels

train_data = read_imdb(data_dir, is_train=True)
print('訓(xùn)練集數(shù)目：', len(train_data[0]))
for x, y in zip(train_data[0][:3], train_data[1][:3]):
    print('標(biāo)簽：', y, 'review:', x[0:60])

訓(xùn)練集數(shù)目： 25000 標(biāo)簽： 1 review: Zentropa has much in common with The Third Man, another noir 標(biāo)簽： 1 review: Zentropa is the most original movie I've seen in years. If y 標(biāo)簽： 1 review: Lars Von Trier is never backward in trying out new technique?

預(yù)處理數(shù)據(jù)集

將每個(gè)單詞作為一個(gè)詞元，過濾掉出現(xiàn)不到5次的單詞，我們從訓(xùn)練數(shù)據(jù)集中創(chuàng)建一個(gè)詞表。

train_tokens = d2l.tokenize(train_data[0], token='word')
vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=['<pad>'])

在詞元化之后，讓我們繪制評論詞元長度的直方圖。

d2l.set_figsize()
d2l.plt.xlabel('# tokens per review')
d2l.plt.ylabel('count')
d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));

自然語言處理-情感分析及數(shù)據(jù)集,人工智能,PyTorch,代碼筆記,自然語言處理,人工智能 ?

正如我們所料，評論的長度各不相同。為了每次處理一小批量這樣的評論，我們通過截?cái)嗪吞畛鋵⒚總€(gè)評論的長度設(shè)置為500。

num_steps = 500  # 序列長度
train_features = np.array([d2l.truncate_pad(
    vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
print(train_features.shape)

(25000, 500) [07:12:31] ../src/storage/storage.cc:196: Using Pooled (Naive) StorageManager for CPU

創(chuàng)建數(shù)據(jù)迭代器

現(xiàn)在我們可以創(chuàng)建數(shù)據(jù)迭代器了。在每次迭代中，都會(huì)返回一小批量樣本。

train_iter = d2l.load_array((train_features, train_data[1]), 64)

for X, y in train_iter:
    print('X:', X.shape, ', y:', y.shape)
    break
print('小批量數(shù)目：', len(train_iter))

X: (64, 500) , y: (64,)

小批量數(shù)目： 391?

整合代碼

最后，我們將上述步驟封裝到load_data_imdb函數(shù)中。它返回訓(xùn)練和測試數(shù)據(jù)迭代器以及IMDb評論數(shù)據(jù)集的詞表。文章來源地址http://www.zghlxwxcb.cn/news/detail-809952.html

#@save
def load_data_imdb(batch_size, num_steps=500):
    """返回?cái)?shù)據(jù)迭代器和IMDb評論數(shù)據(jù)集的詞表"""
    data_dir = d2l.download_extract('aclImdb', 'aclImdb')
    train_data = read_imdb(data_dir, True)
    test_data = read_imdb(data_dir, False)
    train_tokens = d2l.tokenize(train_data[0], token='word')
    test_tokens = d2l.tokenize(test_data[0], token='word')
    vocab = d2l.Vocab(train_tokens, min_freq=5)
    train_features = np.array([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
    test_features = np.array([d2l.truncate_pad(
        vocab[line], num_steps, vocab['<pad>']) for line in test_tokens])
    train_iter = d2l.load_array((train_features, train_data[1]), batch_size)
    test_iter = d2l.load_array((test_features, test_data[1]), batch_size,
                               is_train=False)
    return train_iter, test_iter, vocab

到了這里，關(guān)于自然語言處理-情感分析及數(shù)據(jù)集的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

華為云API自然語言處理的魅力—AI情感分析、文本分析
云服務(wù)、API、SDK，調(diào)試，查看，我都行閱讀短文您可以學(xué)習(xí)到：人工智能AI自言語言的情感分析、文本分詞、文本翻譯 API插件支持?VS Code IDE、IntelliJ IDEA等平臺、以及華為云自研?CodeArts IDE，基于華為云服務(wù)提供的能力，幫助開發(fā)者更高效、便捷的搭建應(yīng)用。API插件關(guān)聯(lián)華為
2024年02月07日
瀏覽(21)
自然語言處理 Paddle NLP - 情感分析技術(shù)及應(yīng)用-理論
基礎(chǔ) 自然語言處理（NLP）自然語言處理PaddleNLP-詞向量應(yīng)用展示自然語言處理（NLP）-前預(yù)訓(xùn)練時(shí)代的自監(jiān)督學(xué)習(xí) 自然語言處理PaddleNLP-預(yù)訓(xùn)練語言模型及應(yīng)用自然語言處理PaddleNLP-文本語義相似度計(jì)算（ERNIE-Gram）自然語言處理PaddleNLP-詞法分析技術(shù)及其應(yīng)用自然語言處理Pa
2024年02月09日
瀏覽(34)
SpringBoot進(jìn)行自然語言處理，利用Hanlp進(jìn)行文本情感分析
. # ??前言本文主要是SpringBoot進(jìn)行自然語言處理，利用Hanlp進(jìn)行文本情感分析，如果有什么需要改進(jìn)的地方還請大佬指出?? ??作者簡介：大家好，我是青衿?? ??博客首頁：CSDN主頁放風(fēng)講故事 ??每日一句：努力一點(diǎn)，優(yōu)秀一點(diǎn) 自然語言處理已經(jīng)進(jìn)入大模型時(shí)代，然而
2024年02月05日
瀏覽(24)
自然語言處理 Paddle NLP - 情感分析技術(shù)及應(yīng)用SKEP-實(shí)踐
基礎(chǔ) 自然語言處理（NLP）自然語言處理PaddleNLP-詞向量應(yīng)用展示自然語言處理（NLP）-前預(yù)訓(xùn)練時(shí)代的自監(jiān)督學(xué)習(xí) 自然語言處理PaddleNLP-預(yù)訓(xùn)練語言模型及應(yīng)用自然語言處理PaddleNLP-文本語義相似度計(jì)算（ERNIE-Gram）自然語言處理PaddleNLP-詞法分析技術(shù)及其應(yīng)用自然語言處理Pa
2024年02月09日
瀏覽(23)
【數(shù)據(jù)挖掘與人工智能自然語言處理】自然語言處理和人工智能：如何利用自然語言處理技術(shù)進(jìn)行數(shù)據(jù)挖掘
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著互聯(lián)網(wǎng)和大數(shù)據(jù)時(shí)代的到來，數(shù)據(jù)挖掘已成為各個(gè)行業(yè)的熱門話題。數(shù)據(jù)挖掘的核心在于發(fā)現(xiàn)數(shù)據(jù)中的有價(jià)值信息，而自然語言處理（NLP）技術(shù)是實(shí)現(xiàn)這一目標(biāo)的重要手段。本文旨在通過自然語言處理技術(shù)進(jìn)行數(shù)據(jù)挖掘，為數(shù)據(jù)挖掘提供一
2024年02月05日
瀏覽(103)
自然語言處理實(shí)戰(zhàn)項(xiàng)目12-基于注意力機(jī)制的CNN-BiGRU模型的情感分析任務(wù)的實(shí)踐
大家好，我是微學(xué)AI，今天給大家介紹一下自然語言處理實(shí)戰(zhàn)項(xiàng)目12-基于注意力機(jī)制的CNN-BiGRU模型的情感分析任務(wù)的實(shí)踐，本文將介紹一種基于注意力機(jī)制的CNN-BiGRU模型，并將其應(yīng)用于實(shí)際項(xiàng)目中。我們將使用多條CSV數(shù)據(jù)樣例，并展示如何加載數(shù)據(jù)、訓(xùn)練模型、輸出準(zhǔn)確率和
2024年02月13日
瀏覽(32)
人工智能與大數(shù)據(jù)面試指南——自然語言處理（NLP）
分類目錄：《人工智能與大數(shù)據(jù)面試指南》總目錄《人工智能與大數(shù)據(jù)面試指南》系列下的內(nèi)容會(huì) 持續(xù)更新，有需要的讀者可以收藏文章，以及時(shí)獲取文章的最新內(nèi)容。自然語言處理（NLP）領(lǐng)域有哪些常見任務(wù)？基礎(chǔ)任務(wù) 中文分詞：將一串連續(xù)的字符構(gòu)成的句子分割成
2024年02月11日
瀏覽(121)
自然語言處理（NLP）一直是人工智能領(lǐng)域的一項(xiàng)重要任務(wù)，其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析?
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 自然語言處理（NLP）一直是人工智能領(lǐng)域的一項(xiàng)重要任務(wù)，其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析，成為一個(gè)重要研究課題。近年來，隨著計(jì)算能力的提升和硬件性能的增強(qiáng)，大規(guī)模
2024年02月09日
瀏覽(21)
【自然語言處理（NLP）】基于循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)情感分類
活動(dòng)地址：[CSDN21天學(xué)習(xí)挑戰(zhàn)賽](https://marketing.csdn.net/p/bdabfb52c5d56532133df2adc1a728fd) 作者簡介：在校大學(xué)生一枚，華為云享專家，阿里云星級博主，騰云先鋒（TDP）成員，云曦智劃項(xiàng)目總負(fù)責(zé)人，全國高等學(xué)校計(jì)算機(jī)教學(xué)與產(chǎn)業(yè)實(shí)踐資源建設(shè)專家委員會(huì)（TIPCC）志愿者，以及編程
2024年02月07日
瀏覽(26)
自然語言處理與大數(shù)據(jù)：如何提高數(shù)據(jù)分析效率
自然語言處理(NLP，Natural Language Processing)是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的一個(gè)分支，研究如何讓計(jì)算機(jī)理解、生成和處理人類語言。自然語言處理技術(shù)廣泛應(yīng)用于各個(gè)領(lǐng)域，包括機(jī)器翻譯、語音識別、情感分析、文本摘要等。隨著數(shù)據(jù)的大量生成和存儲，大數(shù)據(jù)技術(shù)已經(jīng)成為
2024年04月09日
瀏覽(24)

<th id="xpaxe"><input id="xpaxe"></input></th>

<tfoot id="xpaxe"><dfn id="xpaxe"><dfn id="xpaxe"></dfn></dfn></tfoot>

<thead id="xpaxe"><div id="xpaxe"><sup id="xpaxe"></sup></div></thead>

<tfoot id="xpaxe"></tfoot>