国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

聊聊自然語言處理NLP

這篇具有很好參考價值的文章主要介紹了聊聊自然語言處理NLP。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

概述

自然語言處理(NLP)的正式定義:是一個使用計算機(jī)科學(xué)、人工智能(AI)和形式語言學(xué)概念來分析自然語言的研究領(lǐng)域。不太正式的定義表明:它是一組工具,用于從自然語言源(如web頁面和文本文檔)獲取有意義和有用的信息。
NLP工具的實現(xiàn)一般是基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)、其它算法(Lucene Core);基于前兩者的實現(xiàn)是比較流行且持續(xù)在探索演進(jìn)。

NLP任務(wù)概述


NLP需要一組任務(wù)的組合,如下列舉所示:

分詞

文本可以分解為許多不同類型的元素,如單詞、句子和段落(稱為詞或詞項),并可選地對這些詞執(zhí)行附加處理;這種額外的處理可以包括詞干提取、詞元化(也稱為詞形還原)、停用詞刪除、同義詞擴(kuò)展和文本轉(zhuǎn)換為小寫。而分詞一般都是基于各種分詞器;比如Lucene、基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的框架。

文本斷句

文本斷句也可以理解為文本識別。即識別句子(即斷句);此項功能是有用的,原因有很多。一些NLP任務(wù),如詞性標(biāo)注和實體提取,是針對單個句子的。對話式的應(yīng)用程序還需要識別單獨的句子。為了使這些過程正確工作,必須正確地確定句子邊界。
將文本分割成語句也稱為語句邊界消歧(Sentence Boundary Disambiguation,SBD)。文本斷句的常用方法包括使用一組規(guī)則或訓(xùn)練一個模型來檢測它們。

特征工程

即用特征表示文本。特征工程在NLP應(yīng)用開發(fā)中起著至關(guān)重要的作用,這對于機(jī)器學(xué)習(xí)非常重要,特別是在基于預(yù)測的模型中。它是利用領(lǐng)域知識將原始數(shù)據(jù)轉(zhuǎn)換成特征的過程,從而使機(jī)器學(xué)習(xí)算法能夠工作。特征使我們能夠更集中地查看原始數(shù)據(jù)。一旦確定了特征,就進(jìn)行特征選擇以減少數(shù)據(jù)的維數(shù)。常用的框架及算法:

  • n-gram
  • 詞嵌入
  • Glove
  • word2Vec
  • 降維
  • 主成分分析
  • t-SNE

命名實體識別

識別人和事物的過程稱為命名實體識別(NER)。實體(諸如人物和地點等)與具有名稱的類別相關(guān)聯(lián),而這些名稱識別了它們是什么。
NER過程涉及兩個任務(wù):

  • 實體檢測
  • 實體分類

檢測是指在文本中找到實體的位置。一旦找到它,確定被發(fā)現(xiàn)的實體是什么類型非常重要。這兩個任務(wù)完成后,其結(jié)果可以用來解決其他任務(wù),如搜索和確定文本的含義。例如,任務(wù)可能包括從電影或書評識別名字,并幫助找到可能感興趣的其他電影或書籍。提取位置信息有助于對附近的服務(wù)提供參考。

詞性標(biāo)注

標(biāo)注是將描述分配給詞項或部分文本的過程。此描述稱為標(biāo)簽。詞性標(biāo)注是將詞性標(biāo)簽分配給詞項的過程。這個過程是檢測詞性的核心。
一般的標(biāo)注過程包括標(biāo)記文本、確定可能的標(biāo)簽和解決歧義標(biāo)簽。算法用于進(jìn)行詞性標(biāo)識(標(biāo)注)。一般有兩種方法。

  • 基于規(guī)則:基于規(guī)則的標(biāo)注器使用一組規(guī)則、單詞詞典和可能的標(biāo)簽。當(dāng)一個單詞有多個標(biāo)簽時可以使用這些規(guī)則。規(guī)則通常使用單詞的上下文來選擇標(biāo)簽。
  • 基于隨機(jī)域:基于隨機(jī)域的標(biāo)注器要么是基于馬爾可夫模型,要么是基于線索的,使用決策樹或最大熵。馬爾可夫模型是有限狀態(tài)機(jī),其中每個狀態(tài)都有兩個概率分布。其目的是為句子找到最優(yōu)的標(biāo)簽序列。還可以使用隱馬爾可夫模型(Hidden Markov Model,HMM)。在這些模型中,狀態(tài)轉(zhuǎn)換是不可見的。

對句子進(jìn)行適當(dāng)?shù)臉?biāo)注可以提高后續(xù)處理任務(wù)的質(zhì)量,可用于許多后續(xù)任務(wù),如問題分析、文本情感分析等。

分類

分類涉及為文本或文檔中找到的信息分配標(biāo)簽。當(dāng)過程發(fā)生時,這些標(biāo)簽可能已知,也可能未知。當(dāng)標(biāo)簽已知時,這個過程稱為分類。當(dāng)標(biāo)簽未知時,該過程稱為聚集。
文本分類用于多種目的:垃圾郵件檢測、著作權(quán)歸屬、情感分析、年齡和性別識別、確定文檔的主題、語言識別等。
有兩種基本的文本分類技術(shù):

  • 基于規(guī)則的分類
  • 有監(jiān)督的機(jī)器學(xué)習(xí)

基于規(guī)則的分類使用單詞和其他屬性的組合,這些屬性是根據(jù)專家精心設(shè)計的規(guī)則組織起來的。這些方法非常有效,但是創(chuàng)建它們是一個非常耗時的過程。有監(jiān)督的機(jī)器學(xué)習(xí)(Supervised machine learning,SML)采用一組帶注釋的訓(xùn)練文檔來創(chuàng)建模型。該模型通常稱為分類器。有許多不同的機(jī)器學(xué)習(xí)技術(shù),包括樸素貝葉斯、支持向量機(jī)(Support Vector Machine,SVM)和k近鄰算法等。

關(guān)系提取

關(guān)系提取是標(biāo)識文本中存在的關(guān)系的過程。
實體之間(例如句子的主語和它的賓語、其他實體,或者它的行為之間)存在各種關(guān)系。我們可能還想確定關(guān)系并以結(jié)構(gòu)化的形式呈現(xiàn)它們。我們可以使用這些信息來顯示結(jié)果,以供人們立即使用,或者格式化關(guān)系,以便更好地將它們用于后續(xù)任務(wù)。
提取的關(guān)系可以用于多種目的,包括:

  • 建立知識庫
  • 創(chuàng)建目錄
  • 產(chǎn)品搜索
  • 專利分析
  • 股票分析
  • 情報分析

有許多可用的技術(shù)來提取關(guān)系??煞譃槿缦聨追N:

  • 手工方式
  • 監(jiān)督方法
  • 半監(jiān)督方法或無監(jiān)督方法
  • 引導(dǎo)方法
  • 遠(yuǎn)程監(jiān)督方法
  • 無監(jiān)督的方法

參考

《Java自然語言處理(原書第2版)》文章來源地址http://www.zghlxwxcb.cn/news/detail-628913.html

到了這里,關(guān)于聊聊自然語言處理NLP的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 自然語言處理-NLP

    自然語言處理-NLP

    目錄 自然語言處理-NLP 致命密碼:一場關(guān)于語言的較量 自然語言處理的發(fā)展歷程 興起時期 符號主義時期 連接主義時期 深度學(xué)習(xí)時期 自然語言處理技術(shù)面臨的挑戰(zhàn) 語言學(xué)角度 同義詞問題 情感傾向問題 歧義性問題 對話/篇章等長文本處理問題 探索自然語言理解的本質(zhì)問題

    2024年02月11日
    瀏覽(28)
  • 自然語言處理NLP介紹——NLP簡介
  • NLP自然語言處理介紹

    自然語言處理(NLP,Natural Language Processing)是一門涉及計算機(jī)與人類語言之間交互的學(xué)科。它的目標(biāo)是使計算機(jī)能夠理解和生成人類語言,從而更好地處理和解析大量的文本數(shù)據(jù)。NLP不僅是人工智能領(lǐng)域中一個重要的分支,也是當(dāng)今社會應(yīng)用廣泛的領(lǐng)域之一。 在NLP中,一個基

    2024年01月21日
    瀏覽(48)
  • 自然語言處理2-NLP

    自然語言處理2-NLP

    目錄 自然語言處理2-NLP 如何把詞轉(zhuǎn)換為向量 如何讓向量具有語義信息 在CBOW中 在Skip-gram中 skip-gram比CBOW效果更好 CBOW和Skip-gram的算法實現(xiàn) Skip-gram的理想實現(xiàn) Skip-gram的實際實現(xiàn) 在自然語言處理任務(wù)中, 詞向量(Word Embedding)是表示自然語言里單詞的一種方法 ,即把每個詞都表

    2024年02月11日
    瀏覽(49)
  • 自然語言處理(NLP)技術(shù)

    ????????自然語言處理技術(shù)是一種人工智能技術(shù),它的目標(biāo)是使計算機(jī)能夠理解、分析、處理和生成自然語言(人類使用的語言)。NLP技術(shù)包括文本分類、情感分析、機(jī)器翻譯、語音識別、語音合成、信息檢索、信息抽取、問答系統(tǒng)等。NLP技術(shù)的應(yīng)用非常廣泛,例如智能客

    2024年02月14日
    瀏覽(33)
  • 自然語言處理NLP:一文了解NLP自然語言處理技術(shù),NLP在生活中的應(yīng)用,圖導(dǎo)加深了解,NLP語料庫,NLP開源工具

    目錄 1.自然語言處理NLP 1.1?NLP中英對照(雙份) 1.2 相關(guān)文章? 2.NLP語料庫

    2024年02月09日
    瀏覽(41)
  • 自然語言處理(NLP) —— 心理語言學(xué)

    自然語言處理(NLP) —— 心理語言學(xué)

    ????????認(rèn)知科學(xué)和心理語言學(xué)是兩個密切相關(guān)的領(lǐng)域,它們研究 認(rèn)知過程和語言使用是如何相互作用的。 ????????在歷史上,這兩個領(lǐng)域的發(fā)展經(jīng)歷了幾個重要的階段: 1.1.1?19世紀(jì)晚期(內(nèi)省法) ????????Wundt 和其他德國心理學(xué)家使用一種叫做 內(nèi)省法 的研究方

    2024年02月21日
    瀏覽(93)
  • 自然語言處理(NLP)是什么?

    自然語言處理(NLP)是什么?

    您有沒有和聊天機(jī)器人互動過?或者您是否向虛擬助手,例如 Siri、Alexa 或您車上的車載娛樂系統(tǒng)發(fā)出過某些請求?您使用過在線翻譯嗎?我們大多數(shù)人都曾與這些人工智能 (AI) 互動過,我們也從未停止過思考如何便捷地表達(dá)我們的需求并獲得適當(dāng)?shù)幕貞?yīng)。如果我和Siri說:“

    2024年02月10日
    瀏覽(27)
  • NLP(自然語言處理)是什么?

    NLP基本概念: 自然語言處理( Natural Language Processing, NLP)是以語言為對象,利用計算機(jī)技術(shù)來分析、理解和處理自然語言的一門學(xué)科,即把計算機(jī)作為語言研究的強(qiáng)大工具,在計算機(jī)的支持下對語言信息進(jìn)行定量化的研究,并提供可供人與計算機(jī)之間能共同使用的語言描寫。包括

    2024年02月12日
    瀏覽(25)
  • 自然語言處理(NLP)技術(shù)的例子

    以下是幾個自然語言處理(NLP)技術(shù)的例子: 機(jī)器翻譯:機(jī)器翻譯是將一種自然語言的文本轉(zhuǎn)換成另一種語言的文本的過程。這種技術(shù)應(yīng)用于在線翻譯器、多語言聊天機(jī)器人、多語言搜索引擎等地方。 文本分類:文本分類將文本分成不同的類別,它可以被應(yīng)用到垃圾郵件過

    2024年02月10日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包