国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【文本到上下文 #2】:NLP 的數(shù)據(jù)預(yù)處理步驟

這篇具有很好參考價值的文章主要介紹了【文本到上下文 #2】:NLP 的數(shù)據(jù)預(yù)處理步驟。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

【文本到上下文 #2】:NLP 的數(shù)據(jù)預(yù)處理步驟,NLP高級和ChatGPT,人工智能,自然語言處理,人工智能

一、說明

????????歡迎閱讀此文,NLP 愛好者!當(dāng)我們繼續(xù)探索自然語言處理 (NLP) 的廣闊前景時,我們已經(jīng)在最初的博客中探討了它的歷史、應(yīng)用和挑戰(zhàn)。今天,我們更深入地探討 NLP 的核心——數(shù)據(jù)預(yù)處理的復(fù)雜世界。

????????這篇文章是我們的“完整 NLP 指南:文本到上下文”博客系列的第二部分。我們的重點(diǎn)非常明確:我們深入研究為 NLP 任務(wù)奠定基礎(chǔ)所必需的關(guān)鍵數(shù)據(jù)預(yù)處理步驟。雖然 NLP 的進(jìn)步使得能夠開發(fā)能夠感知和理解人類語言的應(yīng)用程序,但仍然存在一個關(guān)鍵的先決條件——以機(jī)器可以理解的格式準(zhǔn)備并向機(jī)器提供數(shù)據(jù)。這個過程涉及一系列多樣化且重要的預(yù)處理步驟。

????????以下是本次深入研究中的預(yù)期內(nèi)容:

  1. 標(biāo)記化和文本清理:探索將文本分解為有意義的單元并確保原始且易于理解的語言的藝術(shù)。這包括處理標(biāo)點(diǎn)符號和細(xì)化文本以進(jìn)行進(jìn)一步處理。
  2. 停用詞刪除:了解為什么刪除某些單詞對于關(guān)注數(shù)據(jù)集中更有意義的內(nèi)容至關(guān)重要。
  3. 詞干提取和詞形還原:深入研究文本規(guī)范化技術(shù),了解何時以及如何使用詞干提取或詞形還原將單詞簡化為詞根形式。
  4. 詞性標(biāo)注 (POS):探索為每個單詞分配語法類別如何有助于更深入地理解句子結(jié)構(gòu)和上下文。
  5. 命名實(shí)體識別 (NER):通過識別和分類文本中的實(shí)體,揭示 NER 在增強(qiáng)語言理解方面的作用。

????????其中每個步驟都是將原始文本翻譯成機(jī)器可以理解的語言的關(guān)鍵構(gòu)建塊,為更高級的 NLP 任務(wù)奠定了基礎(chǔ)。

????????在本次探索結(jié)束時,您不僅會牢牢掌握這些基本的預(yù)處理步驟,而且還會為我們旅程的下一階段——探索高級文本表示技術(shù)做好準(zhǔn)備。讓我們深入了解 NLP 數(shù)據(jù)預(yù)處理的要點(diǎn)并增強(qiáng)自己的能力。快樂編碼!

二. 分詞和文本清理

????????NLP 的核心是將文本分解為有意義的單元的藝術(shù)。標(biāo)記化是將文本分割成單詞、短語甚至句子(標(biāo)記)的過程。這是為進(jìn)一步分析奠定基礎(chǔ)的第一步。與文本清理(我們刪除不必要的字符、數(shù)字和符號)相結(jié)合,標(biāo)記化可確保我們使用原始的、可理解的語言單元。

#!pip install nltk
# Example Tokenization and Text Cleaning
text = "NLP is amazing! Let's explore its wonders."
tokens = nltk.word_tokenize(text)
cleaned_tokens = [word.lower() for word in tokens if word.isalpha()]
print(cleaned_tokens)
['nlp', 'is', 'amazing', 'let', 'explore', 'its', 'wonders']

三、?停用詞刪除:

????????并非所有單詞對句子的含義都有同等的貢獻(xiàn)。像“the”或“and”這樣的停用詞通常會被過濾掉,以專注于更有意義的內(nèi)容。

# Example Stop Words
from nltk.corpus import stopwords
stop_words = set(stopwords.words("english"))
filtered_sentence = [word for word in cleaned_tokens if word not in stop_words]
print(filtered_sentence)
['nlp', 'amazing', 'let', 'explore', 'wonders']

四、詞干提取和詞形還原

????????詞干提取和詞形還原都是自然語言處理 (NLP) 中使用的文本規(guī)范化技術(shù),用于將單詞還原為其基本形式或詞根形式。雖然他們的共同目標(biāo)是簡化單詞,但他們在應(yīng)用語言知識方面的運(yùn)作方式有所不同。

????????詞干提?。哼€原為根形式

????????詞干提取涉及切斷單詞的前綴或后綴以獲得其詞根或基本形式,稱為詞干。目的是將具有相似含義的單詞視為相同的單詞。詞干提取是一種基于規(guī)則的方法,并不總是產(chǎn)生有效的單詞,但計算量較小。

????????詞形還原:轉(zhuǎn)換為字典形式

????????另一方面,詞形還原涉及將單詞減少為其基本形式或字典形式,稱為詞條。它考慮了句子中單詞的上下文并應(yīng)用形態(tài)分析。詞形還原會產(chǎn)生有效的單詞,并且與詞干提取相比在語言學(xué)上更具信息性。

????????何時使用詞干提取與詞形還原:

????????詞干提?。?/span>

  • 優(yōu)點(diǎn):簡單且計算成本較低。
  • 缺點(diǎn):可能并不總是產(chǎn)生有效的單詞。

????????詞形還原:

  • 優(yōu)點(diǎn):產(chǎn)生有效的單詞;考慮語言背景。
  • 缺點(diǎn):比詞干提取的計算強(qiáng)度更大。

????????在詞干提取和詞形還原之間進(jìn)行選擇:

【文本到上下文 #2】:NLP 的數(shù)據(jù)預(yù)處理步驟,NLP高級和ChatGPT,人工智能,自然語言處理,人工智能

Day 4: Stemming and Lemmatization - Nomidl

????????詞干提取和詞形還原之間的選擇取決于 NLP 任務(wù)的具體要求。如果您需要一種快速而直接的文本分析方法,詞干提取可能就足夠了。然而,如果語言準(zhǔn)確性至關(guān)重要,特別是在信息檢索或問答等任務(wù)中,則通常首選詞形還原。

????????在實(shí)踐中,選擇通常取決于基于 NLP 應(yīng)用程序的具體特征的計算效率和語言準(zhǔn)確性之間的權(quán)衡。

# Example Stemming, and Lemmatization 
from nltk.stem import PorterStemmer, WordNetLemmatizer

stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

stemmed_words = [stemmer.stem(word) for word in filtered_sentence]
lemmatized_words = [lemmatizer.lemmatize(word) for word in filtered_sentence]

print(stemmed_words)
print(lemmatized_words)
['nlp', 'amaz', 'let', 'explor', 'wonder']
['nlp', 'amazing', 'let', 'explore', 'wonder']

五、詞性標(biāo)注:

????????詞性標(biāo)注(詞性標(biāo)注)是一種自然語言處理任務(wù),其目標(biāo)是為給定文本中的每個單詞分配語法類別(例如名詞、動詞、形容詞等)。這可以更深入地理解句子中每個單詞的結(jié)構(gòu)和功能。
Penn Treebank POS 標(biāo)簽集是一種廣泛使用的標(biāo)準(zhǔn),用于在英語文本中表示這些詞性標(biāo)簽。

【文本到上下文 #2】:NLP 的數(shù)據(jù)預(yù)處理步驟,NLP高級和ChatGPT,人工智能,自然語言處理,人工智能

# Example Part-of-Speech Tagging 
from nltk import pos_tag
pos_tags = nltk.pos_tag(filtered_sentence)
print(pos_tags)
[('nlp', 'RB'), ('amazing', 'JJ'), ('let', 'NN'), ('explore', 'NN'), ('wonders', 'NNS')]

六、命名實(shí)體識別(NER):

????????NER 通過對給定文本中的名稱、位置、組織等實(shí)體進(jìn)行識別和分類,將語言理解提升到一個新的水平。這對于從非結(jié)構(gòu)化數(shù)據(jù)中提取有意義的信息至關(guān)重要。

# Example Named Entity Recognition (NER) 
from nltk import ne_chunk

ner_tags = ne_chunk(pos_tags)
print(ner_tags)
(S nlp/RB amazing/JJ let/NN explore/NN wonders/NNS)

七、NLP 預(yù)處理步驟的實(shí)際應(yīng)用

????????雖然我們深入研究了 NLP 預(yù)處理的技術(shù)方面,但了解如何在現(xiàn)實(shí)場景中應(yīng)用這些步驟也同樣重要。讓我們探討一些值得注意的例子:

????????社交媒體情感分析中的標(biāo)記化和文本清理
????????在社交媒體情感分析中,標(biāo)記化和文本清理至關(guān)重要。例如,在分析推文以評估公眾對新產(chǎn)品的看法時,標(biāo)記化有助于將推文分解為單個單詞或短語。文本清理用于消除社交媒體文本中常見的話題標(biāo)簽、提及和 URL 等噪音。

import re
def clean_tweet(tweet):
    tweet = re.sub(r'@\w+', '', tweet)  # Remove mentions
    tweet = re.sub(r'#\w+', '', tweet)  # Remove hashtags
    tweet = re.sub(r'http\S+', '', tweet)  # Remove URLs
    return tweet

tweet = "Loving the new #iPhone! Best phone ever! @Apple"
clean_tweet(tweet)
'Loving the new ! Best phone ever! '

????????搜索引擎中的停用詞刪除
????????搜索引擎廣泛使用停用詞刪除。在處理搜索查詢時,通常會刪除“the”、“is”和“in”等常用詞,以重點(diǎn)關(guān)注更有可能與搜索結(jié)果相關(guān)的關(guān)鍵字。

????????文本分類中的詞干提取和詞形還原
????????新聞機(jī)構(gòu)和內(nèi)容聚合商經(jīng)常使用詞干提取和詞形還原進(jìn)行文本分類。通過將單詞簡化為基本形式或詞根形式,算法可以更輕松地將新聞文章分類為“體育”、“政治”或“娛樂”等主題。

????????語音助手中的詞性標(biāo)記
????????亞馬遜的 Alexa 或蘋果的 Siri 等語音助手使用詞性標(biāo)記來提高語音識別和自然語言理解。通過確定單詞的語法上下文,這些助手可以更準(zhǔn)確地解釋用戶請求。

????????客戶支持自動化中的命名實(shí)體識別 (NER)
????????NER 廣泛用于客戶支持聊天機(jī)器人。通過識別和分類產(chǎn)品名稱、位置或用戶問題等實(shí)體,聊天機(jī)器人可以對客戶的詢問提供更有效和量身定制的響應(yīng)。

????????這些例子凸顯了 NLP 預(yù)處理步驟在各個行業(yè)中的實(shí)際意義,使抽象概念更加具體、更容易掌握。了解這些應(yīng)用程序不僅可以提供背景信息,還可以激發(fā)未來項目的想法。

八、結(jié)論

????????在本文中,我們仔細(xì)瀏覽了增強(qiáng) NLP 任務(wù)文本所必需的各種數(shù)據(jù)預(yù)處理步驟。從最初通過標(biāo)記化和清理對文本進(jìn)行分解,到更高級的詞干提取、詞形還原、詞性標(biāo)記和命名實(shí)體識別過程,我們?yōu)橛行Ю斫夂吞幚碚Z言數(shù)據(jù)奠定了堅實(shí)的基礎(chǔ)。

????????然而,我們的旅程并沒有就此結(jié)束。處理后的文本雖然現(xiàn)在更加結(jié)構(gòu)化和信息豐富,但仍需要進(jìn)一步轉(zhuǎn)換才能完全被機(jī)器理解。在下一部分中,我們將深入研究文本表示技術(shù)。這些技術(shù),包括詞袋模型、TF-IDF(詞頻-逆文檔頻率)以及詞嵌入的介紹,對于將文本轉(zhuǎn)換為機(jī)器不僅可以理解而且可以用于各種用途的格式至關(guān)重要。復(fù)雜的 NLP 任務(wù)。

????????因此,請繼續(xù)關(guān)注我們,我們將繼續(xù)揭開 NLP 的復(fù)雜性。我們的探索將為您提供將原始文本轉(zhuǎn)換為有意義的數(shù)據(jù)的知識,為高級分析和應(yīng)用做好準(zhǔn)備。祝您編碼愉快,我們下一篇文章再見!文章來源地址http://www.zghlxwxcb.cn/news/detail-800697.html

到了這里,關(guān)于【文本到上下文 #2】:NLP 的數(shù)據(jù)預(yù)處理步驟的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 自然語言處理NLP:文本預(yù)處理Text Pre-Processing

    自然語言處理NLP:文本預(yù)處理Text Pre-Processing

    大家好,自然語言處理(NLP)是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,其研究能實(shí)現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。本文將介紹文本預(yù)處理的本質(zhì)、原理、應(yīng)用等內(nèi)容,助力自然語言處理和模型的生成使用。 文本預(yù)處理是將原始文本數(shù)

    2024年04月26日
    瀏覽(91)
  • 超長上下文處理:基于Transformer上下文處理常見方法梳理

    超長上下文處理:基于Transformer上下文處理常見方法梳理

    原文鏈接:芝士AI吃魚 目前已經(jīng)采用多種方法來增加Transformer的上下文長度,主要側(cè)重于緩解注意力計算的二次復(fù)雜度。 例如,Transformer-XL通過緩存先前的上下文,并允許隨著層數(shù)的增加線性擴(kuò)展上下文。Longformer采用了一種注意力機(jī)制,使得token稀疏地關(guān)注遠(yuǎn)距離的token,從而

    2024年02月13日
    瀏覽(24)
  • 【文本到上下文 #5】:RNN、LSTM 和 GRU

    【文本到上下文 #5】:RNN、LSTM 和 GRU

    ????????歡迎來到“完整的 NLP 指南:文本到上下文 #5”,這是我們對自然語言處理 (NLP) 和深度學(xué)習(xí)的持續(xù)探索。從NLP的基礎(chǔ)知識到機(jī)器學(xué)習(xí)應(yīng)用程序,我們現(xiàn)在深入研究了神經(jīng)網(wǎng)絡(luò)的復(fù)雜世界及其處理語言的深刻能力。 ????????在本期中,我們將重點(diǎn)介紹順序數(shù)據(jù)

    2024年01月16日
    瀏覽(19)
  • Django --上下文處理器

    Django 的上下文處理器是一些函數(shù),它們將變量添加到每個 Django 模板的上下文中,從而使模板可以訪問這些變量。它們是在 Django 模板渲染過程中調(diào)用的,通常是在視圖函數(shù)中返回渲染模板時調(diào)用的。 上下文處理器可以包含在 Django 項目中的任何應(yīng)用程序中,并且可以在設(shè)置

    2024年02月05日
    瀏覽(37)
  • 大語言模型之十六-基于LongLoRA的長文本上下文微調(diào)Llama-2

    大語言模型之十六-基于LongLoRA的長文本上下文微調(diào)Llama-2

    增加LLM上下文長度可以提升大語言模型在一些任務(wù)上的表現(xiàn),這包括多輪長對話、長文本摘要、視覺-語言Transformer模型的高分辨4k模型的理解力以及代碼生成、圖像以及音頻生成等。 對長上下文場景,在解碼階段,緩存先前token的Key和Value(KV)需要巨大的內(nèi)存開銷,其次主流

    2024年02月06日
    瀏覽(43)
  • 文本預(yù)處理——文本數(shù)據(jù)分析
  • 在word的文本框內(nèi)使用Endnote引用文獻(xiàn),如何保證引文編號按照上下文排序

    在word的文本框內(nèi)使用Endnote引用文獻(xiàn),如何保證引文編號按照上下文排序

    如下圖所示,我在word中插入了一個文本框(為了插圖),然后文本框內(nèi)有引用,結(jié)果endnote自動將文本框內(nèi)的引用優(yōu)先排序,變成文獻(xiàn)[1]了,而事實(shí)上應(yīng)該是[31]。請問如何能讓文本框內(nèi)的排序也自動按照整個文章從上到下的順序來呢?[引用自這里] 文本框中不支持尾注(和腳

    2024年02月13日
    瀏覽(84)
  • 【數(shù)據(jù)挖掘 | 數(shù)據(jù)預(yù)處理】缺失值處理 & 重復(fù)值處理 & 文本處理 確定不來看看?

    【數(shù)據(jù)挖掘 | 數(shù)據(jù)預(yù)處理】缺失值處理 & 重復(fù)值處理 & 文本處理 確定不來看看?

    ???♂? 個人主頁: @AI_magician ??主頁地址: 作者簡介:CSDN內(nèi)容合伙人,全棧領(lǐng)域優(yōu)質(zhì)創(chuàng)作者。 ?????景愿:旨在于能和更多的熱愛計算機(jī)的伙伴一起成長??!????? ???♂?聲明:本人目前大學(xué)就讀于大二,研究興趣方向人工智能硬件(雖然硬件還沒開始玩,但一直

    2024年02月07日
    瀏覽(28)
  • LongLLaMA:LLaMA的升級版,處理超長上下文的利器!

    LongLLaMA:LLaMA的升級版,處理超長上下文的利器!

    原文來源:芝士AI吃魚 有效整合新知識:大模型面臨的挑戰(zhàn) 大家使用過大型模型產(chǎn)品的時候可能會遇到一個共同的問題:在進(jìn)行多輪對話時,模型可能會忘記之前的對話內(nèi)容,導(dǎo)致回答不連貫。這實(shí)際上是由于大型模型在處理大量新內(nèi)容時有時會力不從心,給人一種分心的感

    2024年02月16日
    瀏覽(17)
  • springboot解決sa-token報未能獲取有效的上下文處理器

    springboot解決sa-token報未能獲取有效的上下文處理器

    我的springboot版本3.2.3,引入的是這個依賴sa-token-spring-boot-starter就會報未能獲取有效的上下文處理器 看了官方文檔就是spring boot 版本的問題,引入依賴sa-token-spring-boot3-starter 解決問題 官方地址:https://sa-token.cc/doc.html#/more/common-questions?id=q%ef%bc%9a%e6%8a%a5%e9%94%99%ef%bc%9a%e6%9c%aa%e8%83

    2024年04月26日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包