国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

自然語言處理-NLP

這篇具有很好參考價(jià)值的文章主要介紹了自然語言處理-NLP。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄

自然語言處理-NLP

致命密碼:一場(chǎng)關(guān)于語言的較量

自然語言處理的發(fā)展歷程

興起時(shí)期

符號(hào)主義時(shí)期

連接主義時(shí)期

深度學(xué)習(xí)時(shí)期

自然語言處理技術(shù)面臨的挑戰(zhàn)

語言學(xué)角度

同義詞問題

情感傾向問題

歧義性問題

對(duì)話/篇章等長文本處理問題

探索自然語言理解的本質(zhì)問題

計(jì)算角度

自然語言處理的常見任務(wù)

使用深度學(xué)習(xí)解決自然語言處理任務(wù)的套路

使用飛槳探索自然語言處理


自然語言處理-NLP

自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)被譽(yù)為人工智能皇冠上的明珠,是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要方向。

它主要研究人與計(jì)算機(jī)之間,使用自然語言進(jìn)行有效通信的各種理論和方法。

簡(jiǎn)單來說,計(jì)算機(jī)以用戶的自然語言數(shù)據(jù)作為輸入,在其內(nèi)部通過定義的算法進(jìn)行加工、計(jì)算等系列操作后(用以模擬人類對(duì)自然語言的理解),再返回用戶所期望的結(jié)果,如?圖1?所示。
?

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖1:自然語言處理示意圖


?

自然語言處理是一門融合語言學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)于一體的科學(xué)。它不僅限于研究語言學(xué),還是研究能高效實(shí)現(xiàn)自然語言理解和自然語言生成的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng),因此它是計(jì)算機(jī)科學(xué)的一部分。

隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,自然語言處理技術(shù)在各領(lǐng)域廣泛應(yīng)用,如?圖2?所示。在過去的幾個(gè)世紀(jì),工業(yè)革命用機(jī)械解放了人類的雙手,在當(dāng)今的人工智能革命中,計(jì)算機(jī)將代替人工,處理大規(guī)模的自然語言信息。我們平時(shí)常用的搜索引擎,新聞推薦,智能音箱等產(chǎn)品,都是以自然語言處理技術(shù)為核心的互聯(lián)網(wǎng)和人工智能產(chǎn)品。

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖2:自然語言處理技術(shù)在各領(lǐng)域的應(yīng)用


?

此外,自然語言處理技術(shù)的研究也在日新月異變化,每年投向ACL(Annual Meeting of the Association for Computational Linguistics,計(jì)算語言學(xué)年會(huì),自然語言處理領(lǐng)域的頂級(jí)會(huì)議)的論文數(shù)成倍增長,自然語言處理的應(yīng)用效果被不斷刷新,有趣的任務(wù)和算法更是層出不窮。


致命密碼:一場(chǎng)關(guān)于語言的較量

事實(shí)上,人們并非只在近代才開始研究和處理自然語言,在漫長的歷史長河中,是否妥當(dāng)處理自然語言,成為戰(zhàn)爭(zhēng)的勝利或是政權(quán)的更迭的關(guān)鍵因素。

16世紀(jì)的英國大陸,英格蘭和蘇格蘭剛剛完成統(tǒng)一,統(tǒng)治者為英格蘭女王伊麗莎白一世,蘇格蘭女王瑪麗因被視為威脅而遭到囚禁?,旣惻鹾推渌K格蘭貴族謀反,這些貴族們通過信件與瑪麗女王聯(lián)絡(luò),商量營救方案并推翻伊麗莎白女王的統(tǒng)治。為了能更安全地與同伙溝通,瑪麗使用了一種傳統(tǒng)的文字加密形式 - 凱撒密碼對(duì)她們之間的信件進(jìn)行加密,如?圖3?所示。

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖3:凱撒密碼


?

這種密碼通過把原文中的字母替換成另外一個(gè)字符的形式,達(dá)到加密手段。然而他們的陰謀活動(dòng)早在英格蘭貴族監(jiān)控之下,英格蘭國務(wù)大臣弗朗西斯·沃爾辛厄姆爵士通過統(tǒng)計(jì)英文字母的出現(xiàn)頻率和瑪麗女王密函中的字母頻率,找到了破解密碼的規(guī)律。最終,瑪麗和其他貴族在舉兵謀反前夕被捕。這是近代西方第一次破譯密碼,開啟了近現(xiàn)代密碼學(xué)的先河。


自然語言處理的發(fā)展歷程

自然語言處理有著悠久的發(fā)展史,可粗略地分為興起、符號(hào)主義、連接主義和深度學(xué)習(xí)四個(gè)階段,如?圖4?所示:

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖4:自然語言處理的發(fā)展歷程

興起時(shí)期

大多數(shù)人認(rèn)為,自然語言處理的研究興起于1950年前后。在二戰(zhàn)中,破解納粹德國的恩尼格瑪密碼成為盟軍對(duì)抗納粹的重要戰(zhàn)場(chǎng)。經(jīng)過二戰(zhàn)的洗禮,曾經(jīng)參與過密碼破譯的香農(nóng)和圖靈等科學(xué)家開始思考自然語言處理和計(jì)算之間的關(guān)系。

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖5:恩尼格瑪密碼機(jī)

圖靈測(cè)試(The Turing test)

由艾倫·麥席森·圖靈提出,指測(cè)試者與被測(cè)試者(一個(gè)人和一臺(tái)機(jī)器)隔開的情況下,通過一些裝置(如鍵盤)向被測(cè)試者隨意提問。
進(jìn)行多次測(cè)試后,如果機(jī)器讓平均每個(gè)參與者做出超過30%的誤判,那么這臺(tái)機(jī)器就通過了測(cè)試,并被認(rèn)為具有人類智能。圖靈測(cè)試一詞來源于計(jì)算機(jī)科學(xué)和密碼學(xué)的先驅(qū)艾倫·麥席森·圖靈寫于1950年的一篇論文《計(jì)算機(jī)器與智能》,其中30%是圖靈對(duì)2000年時(shí)的機(jī)器思考能力的一個(gè)預(yù)測(cè),我們已遠(yuǎn)遠(yuǎn)落后于這個(gè)預(yù)測(cè)

1948年香農(nóng)把馬爾可夫過程模型(Markov Progress)應(yīng)用于建模自然語言,并提出把熱力學(xué)中“熵”(Entropy)的概念擴(kuò)展到自然語言建模領(lǐng)域。香農(nóng)相信,自然語言跟其它物理世界的信號(hào)一樣,是具有統(tǒng)計(jì)學(xué)規(guī)律的,通過統(tǒng)計(jì)分析可以幫助我們更好地理解自然語言。

1950年,艾倫圖靈提出著名的圖靈測(cè)試,標(biāo)志著人工智能領(lǐng)域的開端。二戰(zhàn)后,受到美蘇冷戰(zhàn)的影響,美國政府開始重視機(jī)器自動(dòng)翻譯的研究工作,以便于隨時(shí)監(jiān)視蘇聯(lián)最新的科技進(jìn)展。1954年美國喬治城大學(xué)在一項(xiàng)實(shí)驗(yàn)中,成功將約60句俄文自動(dòng)翻譯成英文,被視為機(jī)器翻譯可行的開端。自此開始的十年間,政府與企業(yè)相繼投入大量的資金,用于機(jī)器翻譯的研究。

1956年,喬姆斯基(Chomsky)提出了“生成式文法”這一大膽猜想,他假設(shè)在客觀世界存在一套完備的自然語言生成規(guī)律,每一句話都遵守這套規(guī)律而生成。總結(jié)出這個(gè)客觀規(guī)律,人們就掌握了自然語言的奧秘。

從此,自然語言的研究就被分為了

以語言學(xué)為基礎(chǔ)的符號(hào)主義學(xué)派,

以概率統(tǒng)計(jì)為基礎(chǔ)的連接主義學(xué)派。

符號(hào)主義時(shí)期

在自然語言處理發(fā)展的初期階段,大量的自然語言研究工作都聚焦從語言學(xué)角度,分析自然語言的詞法、句法等結(jié)構(gòu)信息,并通過總結(jié)這些結(jié)構(gòu)之間的規(guī)則,達(dá)到處理和使用自然語言的目的。這一時(shí)期的代表人物就是喬姆斯基和他提出的“生成式文法”。1966年,完全基于規(guī)則的對(duì)話機(jī)器人ELIZA在MIT人工智能實(shí)驗(yàn)室誕生了,如?圖6?所示。

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖6:基于規(guī)則的聊天機(jī)器人ELIZA


?

然而同年,ALPAC(Automatic Language Processing Advisory Committee,自動(dòng)語言處理顧問委員會(huì))提出的一項(xiàng)報(bào)告中提出,十年來的機(jī)器翻譯研究進(jìn)度緩慢、未達(dá)預(yù)期。該項(xiàng)報(bào)告發(fā)布后,機(jī)器翻譯和自然語言的研究資金大為減縮,自然語言處理和人工智能的研究進(jìn)入寒冰期。

連接主義時(shí)期

1980年,由于計(jì)算機(jī)技術(shù)的發(fā)展和算力的提升,個(gè)人計(jì)算機(jī)可以處理更加復(fù)雜的計(jì)算任務(wù),自然語言處理研究得以復(fù)蘇,研究人員開始使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法處理自然語言任務(wù)。

起初研究人員嘗試使用淺層神經(jīng)網(wǎng)絡(luò),結(jié)合少量標(biāo)注數(shù)據(jù)的方式訓(xùn)練模型,雖然取得了一定的效果,但是仍然無法讓大部分人滿意。

后來研究者開始使用人工提取自然語言特征的方式,結(jié)合簡(jiǎn)單的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法解決自然語言問題。其實(shí)現(xiàn)方式是基于研究者在不同領(lǐng)域總結(jié)的經(jīng)驗(yàn),將自然語言抽象成一組特征,使用這組特征結(jié)合少量標(biāo)注樣本,訓(xùn)練各種統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型(如支持向量機(jī)、決策樹、隨機(jī)森林、概率圖模型等),完成不同的自然語言任務(wù)。

由于這種方式基于大量領(lǐng)域?qū)<医?jīng)驗(yàn)積累(如解決一個(gè)情感分析任務(wù),那么一個(gè)很重要的特征 — 是否命中情感詞表),以及傳統(tǒng)機(jī)器學(xué)習(xí)簡(jiǎn)單、魯棒性強(qiáng)的特點(diǎn),這個(gè)時(shí)期神經(jīng)網(wǎng)絡(luò)技術(shù)被大部分人所遺忘。

深度學(xué)習(xí)時(shí)期

從2006年深度神經(jīng)網(wǎng)絡(luò)反向傳播算法的提出開始,伴隨著互聯(lián)網(wǎng)的爆炸式發(fā)展和計(jì)算機(jī)(特別是GPU)算力的進(jìn)一步提高,人們不再依賴語言學(xué)知識(shí)和有限的標(biāo)注數(shù)據(jù),自然語言處理領(lǐng)域邁入了深度學(xué)習(xí)時(shí)代。

基于互聯(lián)網(wǎng)海量數(shù)據(jù),并結(jié)合深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大擬合能力,人們可以非常輕松地應(yīng)對(duì)各種自然語言處理問題。越來越多的自然語言處理技術(shù)趨于成熟并顯現(xiàn)出巨大的商業(yè)價(jià)值,自然語言處理和人工智能領(lǐng)域的發(fā)展進(jìn)入了鼎盛時(shí)期。

自然語言處理的發(fā)展經(jīng)歷了多個(gè)歷史階段的演進(jìn),不同學(xué)派之間相互補(bǔ)充促進(jìn),共同推動(dòng)了自然語言處理技術(shù)的快速發(fā)展。

自然語言處理技術(shù)面臨的挑戰(zhàn)

如何讓機(jī)器像人一樣,能夠準(zhǔn)確理解和使用自然語言?這是當(dāng)前自然語言處理領(lǐng)域面臨的最大挑戰(zhàn)。為了解決這一問題,我們需要從語言學(xué)和計(jì)算兩個(gè)角度思考。

語言學(xué)角度

自然語言數(shù)量多、形態(tài)各異,理解自然語言對(duì)人來說本身也是一件復(fù)雜的事情,如同義詞、情感傾向、歧義性、長文本處理、語言慣性表達(dá)等。通過如下幾個(gè)例子,我們一同感受一下。

同義詞問題

請(qǐng)問下列詞語是否為同義詞?(題目來源:四川話和東北話6級(jí)模擬考試)

瓜兮兮 和 鐵憨憨

嘎嘎 和 肉(you)

磕攙 和 難看

吭呲癟肚 和 速度慢

情感傾向問題

請(qǐng)問如何正確理解下面兩個(gè)場(chǎng)景?

場(chǎng)景一:女朋友生氣了,男朋友電話道歉。

女生:就算你買包我也不會(huì)原諒你!

男生:寶貝,放心,我不買,你別生氣了。

問:女生會(huì)不會(huì)生氣?

場(chǎng)景二:甲和乙是同宿舍的室友,他們之間的對(duì)話。

甲:鑰匙好像沒了,你把鎖別別。

乙:到底沒沒沒?

甲:我也不道沒沒沒。

乙:要沒沒你讓我別,別別了,別禿魯了咋整?

問:到底別不別?

歧義性問題

請(qǐng)問如何理解下面三句話?

一行行行行行,一行不行行行不行。

來到楊過曾經(jīng)生活過的地方,小龍女說:“我也想過過過兒過過的生活”。

來到兒子等校車的地方,鄧超對(duì)孫儷說:“我也想等等等等等過的那輛車”。

相信大多數(shù)人都需要花點(diǎn)腦筋去理解上面的句子,在不同的上下文中,相同的單詞可以具有不同的含義,這種問題我們稱之為歧義性問題。

對(duì)話/篇章等長文本處理問題

在處理長文本(如一篇新聞報(bào)道,一段多人對(duì)話,甚至于一篇長篇小說)時(shí),需要經(jīng)常處理各種省略、指代、話題轉(zhuǎn)折和切換等語言學(xué)現(xiàn)象,給機(jī)器理解自然語言帶來了挑戰(zhàn),如?圖7?所示。

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖7:多輪對(duì)話中的指代和省略



探索自然語言理解的本質(zhì)問題

研表究明,漢字的順序并不定一能影閱響讀,比如當(dāng)你看完這句話后,才發(fā)這現(xiàn)里的字全是都亂的。

上面這句話從語法角度來說完全是錯(cuò)的,但是對(duì)大部分人來說完全不影響理解,甚至很多人都不會(huì)意識(shí)到這句話的語法是錯(cuò)的。

計(jì)算角度

自然語言技術(shù)的發(fā)展除了受語言學(xué)的制約外,在計(jì)算角度也天然存在局限。顧名思義,計(jì)算機(jī)是計(jì)算的機(jī)器,現(xiàn)有的計(jì)算機(jī)都以浮點(diǎn)數(shù)為輸入和輸出,擅長執(zhí)行加減乘除類計(jì)算。

自然語言本身并不是浮點(diǎn)數(shù),計(jì)算機(jī)為了能存儲(chǔ)和顯示自然語言,需要把自然語言中的字符轉(zhuǎn)換為一個(gè)固定長度(或者變長)的二進(jìn)制編碼,如?圖8?所示。

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖8:計(jì)算機(jī)計(jì)算自然語言流程


?

由于這個(gè)編碼本身不是數(shù)字,對(duì)這個(gè)編碼的計(jì)算往往不具備數(shù)學(xué)和物理含義。例如:把“法國”和“首都”放在一起,大多數(shù)人首先聯(lián)想到的內(nèi)容是“巴黎”。但是如果我們使用“法國”和“首都”的UTF-8編碼去做加減乘除等運(yùn)算,是無法輕易獲取到“巴黎”的UTF-8編碼,甚至無法獲得一個(gè)有效的UTF-8編碼。因此,如何讓計(jì)算機(jī)可以有效地計(jì)算自然語言,是計(jì)算機(jī)科學(xué)家和工程師面臨的巨大挑戰(zhàn)。

此外,目前也有研究人員正在關(guān)注自然語言處理方法中的社會(huì)問題:

包括自然語言處理模型中的偏見和歧視、大規(guī)模計(jì)算對(duì)環(huán)境和氣候帶來的影響、傳統(tǒng)工作被取代后,人的失業(yè)和再就業(yè)問題等。

自然語言處理的常見任務(wù)

自然語言處理是是非常復(fù)雜的領(lǐng)域,是人工智能中最為困難的問題之一,常見的任務(wù)如?圖9?所示:

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖9:自然語言處理常見任務(wù)


?

  • 詞和短語級(jí)任務(wù):包括切詞、詞性標(biāo)注、命名實(shí)體識(shí)別(如“蘋果很好吃”和“蘋果很偉大”中的“蘋果”,哪個(gè)是蘋果公司?)、同義詞計(jì)算(如“好吃”的同義詞是什么?)等以詞為研究對(duì)象的任務(wù)。
  • 句子和段落級(jí)任務(wù):包括文本傾向性分析(如客戶說:“你們公司的產(chǎn)品真好用!”是在夸贊還是在諷刺?)、文本相似度計(jì)算(如“我坐高鐵去廣州”和“我坐火車去廣州”是一個(gè)意思嗎?)等以句子為研究對(duì)象的任務(wù)。
  • 對(duì)話和篇章級(jí)任務(wù):包括機(jī)器閱讀理解(如使用醫(yī)藥說明書回答患者的咨詢問題)、對(duì)話系統(tǒng)(如打造一個(gè)24小時(shí)在線的AI話務(wù)員)等復(fù)雜的自然語言處理系統(tǒng)等。
  • 自然語言生成:如機(jī)器翻譯(如“我愛飛槳”的英文是什么?)、機(jī)器寫作(以AI為題目寫一首詩)等自然語言生成任務(wù)。

使用深度學(xué)習(xí)解決自然語言處理任務(wù)的套路

使用深度學(xué)習(xí)解決自然語言處理任務(wù)一般需要經(jīng)歷如下幾個(gè)步驟:

(前提)學(xué)習(xí)基本知識(shí)。?在學(xué)習(xí)相關(guān)的知識(shí)后才能對(duì)任務(wù)有一定的了解,例如了解模型的網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)集的構(gòu)成等,為后續(xù)解決任務(wù)打好基礎(chǔ)。

  1. 處理數(shù)據(jù)。?確認(rèn)網(wǎng)絡(luò)能夠接收的數(shù)據(jù)形式,然后對(duì)數(shù)據(jù)進(jìn)行處理。
  2. 實(shí)現(xiàn)網(wǎng)絡(luò)。?搭建網(wǎng)絡(luò)的過程。
  3. 模型訓(xùn)練。?訓(xùn)練模型調(diào)整參數(shù)的過程。
  4. 評(píng)估&上線。?對(duì)訓(xùn)練出的模型效果進(jìn)行評(píng)估,確認(rèn)模型性能。

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖10:

探索自然語言處理

接下來,讓我們一起探索幾個(gè)經(jīng)典的自然語言處理任務(wù),包括:

  • 計(jì)算詞語之間的關(guān)系(如同義詞):word Embedding
  • 理解一個(gè)自然語言句子:文本分類和相似度計(jì)算

一般來說,使用飛槳完成自然語言處理任務(wù)時(shí),都可以遵守一個(gè)相似的套路,如?圖10?所示。
?

自然語言處理-NLP,2023 AI,自然語言處理,人工智能


圖11:使用飛槳框架構(gòu)建神經(jīng)網(wǎng)絡(luò)過程文章來源地址http://www.zghlxwxcb.cn/news/detail-679130.html

到了這里,關(guān)于自然語言處理-NLP的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包