??大家好,我是herosunly。985院校碩士畢業(yè),現(xiàn)擔(dān)任算法研究員一職,熱衷于機(jī)器學(xué)習(xí)算法研究與應(yīng)用。曾獲得阿里云天池比賽第一名,CCF比賽第二名,科大訊飛比賽第三名。擁有多項(xiàng)發(fā)明專利。對機(jī)器學(xué)習(xí)和深度學(xué)習(xí)擁有自己獨(dú)到的見解。曾經(jīng)輔導(dǎo)過若干個非計算機(jī)專業(yè)的學(xué)生進(jìn)入到算法行業(yè)就業(yè)。希望和大家一起成長進(jìn)步。
??本文主要介紹了AIGC時代動手學(xué)自然語言處理的不二之作,希望能對學(xué)習(xí)自然語言處理的同學(xué)們有所幫助。
1. 前言
??NLP已經(jīng)死了嗎? 自從 ChatGPT 橫空出世以來,自然語言處理(Natural Language Processing,NLP) 研究領(lǐng)域就出現(xiàn)了一種消極的聲音,認(rèn)為大模型技術(shù)導(dǎo)致 NLP “死了”。在某乎上就有一條熱門問答,大家熱烈地討論了這個問題。
??有人認(rèn)為 NLP 的市場肯定有,但 NLP 的研究會遇到麻煩,因?yàn)榇竽P偷挠?xùn)練建立在海量數(shù)據(jù)與超高算力之上,普通研究者難以獲取這樣的資源,只能做些應(yīng)用研究;也有人認(rèn)為大模型為 NLP 打開了一片新天地,NLP 的研究整體上會再上一個新臺階。
??看看專家們怎么說,上海交通大學(xué) ACM 班創(chuàng)辦人俞勇教授等幾位 AI 學(xué)界大咖認(rèn)為,不了解過去,就無法理解當(dāng)下。NLP 技術(shù)的發(fā)展歷經(jīng)了幾十年,期間經(jīng)歷了多次重大技術(shù)革新,如果我們的討論脫離歷史發(fā)展,那是沒有意義的。
2. 書籍推薦:《動手學(xué)自然語言處理》
2.1 書籍簡介
??所以俞勇教授等大佬們決心為 NLP 技術(shù)編寫一本在歷史和現(xiàn)代之間更加平衡的教科書——《動手學(xué)自然語言處理》,這本書將為我們講透 NLP 的經(jīng)典技術(shù),梳理整個領(lǐng)域的發(fā)展脈絡(luò),啟發(fā)我們思考 NLP 的未來。
??限時特惠,5折購買,點(diǎn)擊京東鏈接《動手學(xué)自然語言處理》進(jìn)行購買。
??除了干貨滿滿的書籍以外,本書書課包同步上線,可以點(diǎn)擊書課一起購買,更高效哦!購買鏈接為:https://www.epubit.com/bookDetails?id=UBdab9ed56f707&typeName=%E6%90%9C%E7%B4%A2:
??可能會有同學(xué)提出疑問,為什么這本書是學(xué)習(xí)大模型的不二之選呢?因?yàn)楸緯鴥?nèi)容豐富全面,而且為了幫助更好的理解大模型,系統(tǒng)的介紹了NLP 的發(fā)展歷程。
??NLP 的發(fā)展之路充滿了探索與創(chuàng)新,2013年前后,基于符號系統(tǒng)和統(tǒng)計學(xué)習(xí)的方法主導(dǎo)著 NLP 研究的潮流。研究者通過制定復(fù)雜的規(guī)則和使用統(tǒng)計模型,盡力使計算機(jī)能夠理解和生成自然語言。
??然而,這種方法在處理復(fù)雜的語言結(jié)構(gòu)和語義理解上存在著一定的局限性,難以適應(yīng)不斷增長的數(shù)據(jù)規(guī)模和復(fù)雜的語言任務(wù)。隨著深度學(xué)習(xí)技術(shù)的興起,特別是深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,NLP 研究邁上了新臺階。
??深度學(xué)習(xí)模型強(qiáng)大的表征學(xué)習(xí)能力,使得計算機(jī)可以更好地理解和處理自然語言,在諸多 NLP 任務(wù)上取得了突破性的進(jìn)展。這一時期,神經(jīng)網(wǎng)絡(luò)模型開始成為 NLP 研究的主流,為文本分類、情感分析、機(jī)器翻譯等任務(wù)提供了更加高效和靈活的解決方案。
??真正讓 NLP 脫胎換骨的是 2018 年,基于 Transfomer 架構(gòu)的預(yù)訓(xùn)練語言模型崛起。預(yù)訓(xùn)練模型利用大規(guī)模語料庫進(jìn)行無監(jiān)督學(xué)習(xí),為各種 NLP 任務(wù)提供了強(qiáng)大的基礎(chǔ)。
??到 2022 年底,ChatGPT 的發(fā)布引發(fā)了前所未有的熱潮。ChatGPT 不僅擁有驚人的生成能力,而且能夠進(jìn)行有意義的對話和語言理解,自然語言處理進(jìn)入新時代。
??NLP 的快速發(fā)展也為專業(yè)教學(xué)帶來考驗(yàn),一方面是已有教材在技術(shù)層面過時了,另一方面是市場上的一些新書只關(guān)注神經(jīng)自然語言處理,不涉及傳統(tǒng)技術(shù)。**《動手學(xué)自然語言處理》**就彌補(bǔ)了這兩個缺憾,將帶領(lǐng)我們溫故而知新。
2.2 本書作者
??本書的作者團(tuán)隊堪稱豪華,我們來認(rèn)識一下。
- 屠可偉:上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院長聘副教授、研究員、博士生導(dǎo)師。研究方向包括自然語言處理、機(jī)器學(xué)習(xí)等,主要研究將符號、統(tǒng)計和神經(jīng)方法相結(jié)合用于語言結(jié)構(gòu)的表示、學(xué)習(xí)與利用。發(fā)表論文100余篇,主要發(fā)表在ACL、EMNLP、AAAI 等人工智能領(lǐng)域頂級會議。擔(dān)任多個頂級會議程序委員會委員和領(lǐng)域主席。曾獲 ACL 2023 杰出論文獎,以及 SemEval 2022 和 SemEval 2023 最佳系統(tǒng)論文獎。
- 王新宇:上??萍即髮W(xué)博士,長期從事自然語言處理研究工作,在 ACL、EMNLP、NAACL 等頂級會議上發(fā)表論文10余篇,擔(dān)任ACL、NAACL 會議的領(lǐng)域主席以及ACL滾動審查(ACL Rolling Review)執(zhí)行編輯。曾獲得中國中文信息學(xué)會優(yōu)秀博士學(xué)位論文提名、SemEval 2022 最佳系統(tǒng)論文獎等榮譽(yù)。
- 曲彥儒:伊利諾伊大學(xué)厄巴納-香檳分校博士生,長期從事自然語言處理研究工作,在 ACL、NAACL、AAAI、ICLR 等會議上發(fā)表了多篇論文。
- 俞勇:上海交通大學(xué) ACM 班創(chuàng)始人,國家級教學(xué)名師,上海交通大學(xué)特聘教授。2018 年創(chuàng)辦伯禹人工智能學(xué)院,在上海交通大學(xué)ACM 班人工智能專業(yè)課程體系的基礎(chǔ)上,對人工智能課程體系進(jìn)行創(chuàng)新,致力于培養(yǎng)卓越的人工智能算法工程師和研究員。
??有如此多的名師指點(diǎn),學(xué)透 NLP 只需要走好三步。
2.3 玩轉(zhuǎn)NLP要走好這三步
??在學(xué)習(xí)本書的內(nèi)容之前,讀者需要具備一些基礎(chǔ)知識,包括基本的數(shù)學(xué)概念和機(jī)器學(xué)習(xí)的基礎(chǔ)知識,如概率論、概率圖模型、神經(jīng)網(wǎng)絡(luò)等。如果你已經(jīng)準(zhǔn)備好了,那我們繼續(xù)前進(jìn)。
??本書將 NLP 的知識分為三部分,分別是基礎(chǔ)、序列、結(jié)構(gòu)。
第一步:基礎(chǔ)
??從最基礎(chǔ)的自然語言處理技術(shù)入手,講解了文本規(guī)范化、文本表示、文本分類和文本聚類等內(nèi)容。通過學(xué)習(xí)這些基礎(chǔ)知識,讀者可以了解如何將文本轉(zhuǎn)化為計算機(jī)可以理解和處理的形式,以及如何對文本進(jìn)行分類和聚類,為后續(xù)的學(xué)習(xí)打下堅實(shí)的基礎(chǔ)。
第二步:序列
??書中深入探討了自然語言的序列建模技術(shù),包括語言模型、序列到序列模型、預(yù)訓(xùn)練語言模型和序列標(biāo)注等內(nèi)容。
??通過學(xué)習(xí)這些內(nèi)容,讀者將了解對文本序列進(jìn)行概率建模的方法。書中還介紹了預(yù)訓(xùn)練語言模型將語言模型和序列到序列模型在大量數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,獲取通用語言學(xué)知識的過程。
??這部分內(nèi)容是本書的重點(diǎn),涵蓋了當(dāng)前應(yīng)用最廣泛的自然語言處理技術(shù)。讀者可以學(xué)習(xí)到構(gòu)成大模型的基礎(chǔ)技術(shù),包括循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、Transformer 模型。書中對這些知識點(diǎn)給出了詳盡的代碼說明,幫助讀者全盤消化掌握。
第三步:結(jié)構(gòu)
??書中探討了自然語言文字序列背后更為復(fù)雜的結(jié)構(gòu),包括句法結(jié)構(gòu)、語義結(jié)構(gòu)和篇章結(jié)構(gòu)等內(nèi)容。
??學(xué)習(xí)這些知識,讀者可以了解句子中詞語之間的連接關(guān)系、文本表達(dá)含義的結(jié)構(gòu)化表示,以及多個句子如何組合形成段落和文章,從而更深入地理解和應(yīng)用自然語言處理技術(shù)。
??這部分內(nèi)容曾經(jīng)是自然語言處理的主流技術(shù),也很有可能是未來自然語言處理的重要發(fā)展方向,讀者可以在這里探索將來的發(fā)展機(jī)會。
??把這三步走好,讀者就摸透了 NLP 技術(shù),可以在工作中大顯身手了。
2.4 特色介紹
??NLP 的研究方法也許會改變,但是 NLP 的應(yīng)用市場會更加廣闊。學(xué)習(xí) NLP 不僅要追蹤熱門技術(shù),也要透徹了解 NLP 發(fā)展的來龍去脈,《動手學(xué)自然語言處理》就可以很好地幫助讀者通盤掌握 NLP。
??本書最大的特色就是理論與實(shí)踐緊密結(jié)合,提供了大量的配套學(xué)習(xí)資源。我們來看一下究竟可以獲得哪些資源:紙書 + 可以掃碼觀看的理論視頻課 + 配套課件方便教學(xué) + 課后習(xí)題 + 配套代碼(可在線運(yùn)行也可離線運(yùn)行)+ 配套代碼實(shí)戰(zhàn)課 + 針對高校教師的師資培訓(xùn)計劃。
??這幾乎就是背靠一個強(qiáng)大的后勤軍團(tuán),讀者根本不用擔(dān)心學(xué)習(xí)中會遇到困難,只要將這些資源善加利用,定能啃透 NLP 技術(shù)。
??如書名中的“動手學(xué)”所示,本書給讀者提供了極其便利的學(xué)習(xí)環(huán)境,每一章都由一個 Python Notebook 組成, Notebook 中包括概念定義、理論分析、方法講解和可執(zhí)行代碼。讀者可根據(jù)自己的需要學(xué)習(xí)理論,或者動手實(shí)踐。精彩代碼示例如下所示:
"""
代碼來源于GitHub項(xiàng)目huggingface/transformers
(Copyright (c) 2020, The HuggingFace Team, Apache-2.0 License (見附錄))
"""
import sys
# 導(dǎo)入第3章使用的《小王子》數(shù)據(jù)集
sys.path.append('../code')
from utils import TheLittlePrinceDataset
full_text = TheLittlePrinceDataset(tokenize=False).text
# 接下來導(dǎo)入GPT-2模型的分詞器并完成分詞
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('gpt2')
full_tokens = tokenizer.tokenize(full_text.lower())
train_size = int(len(full_ tokens) * 0.8)
train_tokens = full_tokens[: train_size]
??內(nèi)容如此精湛的佳作,自然博得學(xué)界、業(yè)界各位大佬的一片贊譽(yù)之聲。
??本書深度整合了自然語言處理的理論精髓與實(shí)戰(zhàn)智慧,內(nèi)容講解深入淺出、代碼實(shí)例豐富易學(xué),為培養(yǎng)自然語言處理領(lǐng)域的實(shí)戰(zhàn)型人才提供了堅實(shí)的理論基石與豐富的實(shí)戰(zhàn)資源,是渴望學(xué)習(xí)自然語言處理的讀者必備的入門寶典。
——文繼榮 中國人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長、信息學(xué)院院長
??在智能化浪潮下,懂技術(shù)、知應(yīng)用的實(shí)戰(zhàn)型人工智能人才的重要性日益凸顯。本書以深入淺出的理論講解為基礎(chǔ),輔以清晰明了的代碼解析,幫助讀者將自然語言處理的理論與實(shí)戰(zhàn)融會貫通,值得廣大讀者深度研讀。
——周明 瀾舟科技創(chuàng)始人,ACL 原主席,CCF 原副理事長,微軟亞洲研究院原副院長
??學(xué)習(xí)自然語言處理需要將理論與實(shí)戰(zhàn)相結(jié)合。本書憑借詳盡的理論闡述、可運(yùn)行的代碼實(shí)例以及配套的習(xí)題與教學(xué)資源,構(gòu)建了一座連接理論與實(shí)戰(zhàn)的橋梁。無論是新手還是老手,均可使用本書深化對自然語言處理的理解并提升實(shí)戰(zhàn)能力。
——邱錫鵬 復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院教授
??本書具有兩大亮點(diǎn)。一是以序列和結(jié)構(gòu)為主線來組織自然語言處理的關(guān)鍵技術(shù)。序列、結(jié)構(gòu)和語義是語言文字的3個重要屬性,語言文字是離散符號的序列,文本又由帶有語義信息的結(jié)構(gòu)組成。二是以指導(dǎo)動手實(shí)戰(zhàn)為目標(biāo),每個章節(jié)均提供可執(zhí)行代碼,并加以解讀。本書非常適合作為自然語言處理領(lǐng)域的高校教材,也適合作為工程師的常備工具書。
——李磊 卡內(nèi)基梅隆大學(xué)計算機(jī)科學(xué)學(xué)院助理教授
??書作為一本全面且系統(tǒng)的自然語言處理教材,深入淺出地講解了自然語言處理的基本概念和關(guān)鍵方法,無論是學(xué)生還是行業(yè)人士,都能夠通過本書有效掌握自然語言處理的知識體系并進(jìn)行動手實(shí)戰(zhàn)。
——楊笛一 斯坦福大學(xué)計算機(jī)科學(xué)系助理教授
??凡是對 NLP 原理和應(yīng)用有興趣的讀者,包括本科生、研究生、教師、企業(yè)研究人員及工程師等,都可以從本書中獲得自己想要的知識,助力學(xué)習(xí)工作得到提升。
3. 粉絲福利
- 本次送書三到五本
- 活動時間:截止到2024-4-25 12:00
- 參與方式:關(guān)注博主、并在此文章下面點(diǎn)贊、收藏并任意評論。
- 兩本送給所有粉絲抽獎,剩余的送給購買專欄的同學(xué)們,購買專欄并且沒有送過書的同學(xué)們可私信聯(lián)系,先到先得
4. 自主購買
??小伙伴也可以訪問鏈接進(jìn)行自主購買哦~文章來源:http://www.zghlxwxcb.cn/news/detail-856883.html
??限時五折購買,直達(dá)京東購買鏈接??:《動手學(xué)自然語言處理》。文章來源地址http://www.zghlxwxcb.cn/news/detail-856883.html
到了這里,關(guān)于AIGC時代動手學(xué)自然語言處理的不二之作的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!