
1. ChatGPT的前世今生
2022年11月30日,美國(guó)硅谷的初創(chuàng)公司OpenAI推出了名為ChatGPT的AI聊天機(jī)器人,已經(jīng)擁有超過(guò)一百萬(wàn)的用戶,受到熱烈的討論,短短幾天就火爆全網(wǎng)。它既能完成包括寫代碼,查BUG,翻譯文獻(xiàn),寫小說(shuō),寫商業(yè)文案,寫游戲策劃,作詩(shī)等一系列常見(jiàn)文字輸出型任務(wù),也可以在和用戶對(duì)話時(shí),記住對(duì)話的上下文,給人一種仿佛是在與真人對(duì)話的錯(cuò)覺(jué)。ChatGPT的出現(xiàn)成為了人工智能里程碑式的事件。
盡管業(yè)內(nèi)人士認(rèn)為,ChatGPT仍存在數(shù)據(jù)訓(xùn)練集不夠新、不夠全等問(wèn)題,但在人工智能將走向何方,人工智能與人類的關(guān)系將如何發(fā)展?這些問(wèn)題,任然是有待我們思考的問(wèn)題。
1.1 ChatGPT演化路線
模型 | 發(fā)布時(shí)間以及參數(shù)量 |
---|---|
GPT-1 | 2018年6月 1.17億 |
GPT-2 | 2019年2月 15億 |
GPT-3 | 2020年11月 1750億 |
ChatGPT | 2022年11月 千億級(jí) |
![]() |
1.2技術(shù)推進(jìn)路線
時(shí)間 模型 | 相關(guān)論文 |
---|---|
2017年6月 Transformer模型 | 《Attention is all you need》 GPT發(fā)展的基礎(chǔ) |
2018年6月 GPT模型(Generative Pre-Training) | 《Improving Language Understanding by Generative Pre-Training》 通過(guò)生成式預(yù)訓(xùn)練提升語(yǔ)言理解能力 |
2019年2月 GPT-2模型 | 《Language Models are Unsupervised Multitask Learners》 提出了一個(gè)無(wú)監(jiān)督多任務(wù)學(xué)習(xí)者 |
2020年5月 GPT-3模型 | 《Language Models are Few-Shot Learners》 少樣本下的學(xué)習(xí)模型 |
2022年2月底 Instruction GPT模型 | 《Training language models to follow instructions with human feedback》 使用反饋指令流來(lái)控制模型 |
2022年11月30日 ChatGPT模型 | ChatGPT發(fā)布 |
2.ChatGPT主要功能及應(yīng)用領(lǐng)域
2.1 主要功能
- ChatGPT以質(zhì)疑不正確的問(wèn)題。例如被詢問(wèn) “哥倫布 2015 年來(lái)到美國(guó)的情景” 的問(wèn)題時(shí),機(jī)器人會(huì)說(shuō)明哥倫布不屬于這一時(shí)代并調(diào)整輸出結(jié)果。
- ChatGPT可以承認(rèn)自身的無(wú)知,承認(rèn)對(duì)專業(yè)技術(shù)的不了解。
- ChatGPT能夠進(jìn)行持續(xù)的多輪對(duì)話
- 能夠主動(dòng)承認(rèn)錯(cuò)誤并指出用戶的錯(cuò)誤,ChatGPT能夠聽(tīng)取意見(jiàn)并優(yōu)化答案。
(以上圖片來(lái)自于網(wǎng)絡(luò))
2.2 應(yīng)用領(lǐng)域
移動(dòng)互聯(lián)網(wǎng)領(lǐng)域 - 圍繞ChatGPT打造硬件生態(tài),可能產(chǎn)生新的生態(tài)。畢竟已經(jīng)有網(wǎng)友表示愿意為ChatGPT每月付費(fèi)1千美元,而且這樣的個(gè)性化助理一旦與用戶適配,切換難度極高。 為了強(qiáng)調(diào)個(gè)人助理的作用,手機(jī)或許會(huì)重新改名為PDA(個(gè)人數(shù)字化助手)。 當(dāng)然,由于谷歌、DeepMind、Meta等公司都會(huì)產(chǎn)生這一技術(shù),OpenAI未必一家獨(dú)大。還可能出現(xiàn)“個(gè)人助理專家組”。例如各家助理給蘋果提供API,蘋果作為委員會(huì)組長(zhǎng),收集整合各家意見(jiàn)后再提供給用戶。
- 創(chuàng)作詩(shī)歌-ChatGPT對(duì)素材收集整理、改寫、擴(kuò)充、摘要都有幫助,寫作的質(zhì)量和效率都能得到全方位提升。AI輔助寫作極有可能成為寫作的主流方式。隨著UGC成為AIGC,文字作品的內(nèi)容質(zhì)量也能更上一層樓,AI創(chuàng)作劇本/動(dòng)畫也很近了。 對(duì)于實(shí)用型寫作,例如:嚴(yán)肅新聞、科學(xué)書籍等,AI能起到輔助效果。 對(duì)于虛構(gòu)類寫作,AI能發(fā)揮擴(kuò)展素材、輔助想象甚至直接創(chuàng)作的作用。 對(duì)于評(píng)論,例如:網(wǎng)評(píng)、書評(píng)、書摘、商品評(píng)價(jià)、甚至樂(lè)評(píng)、影評(píng)等。AI會(huì)為創(chuàng)作者提供全新的視角,甚至是更為”中立客觀“的評(píng)價(jià),但也會(huì)帶來(lái)一定混亂。有中立客觀的模型,就能有偏頗混亂的模型,訓(xùn)練數(shù)據(jù)或幾個(gè)參數(shù)的調(diào)整就能做到。雖然可以把這種混亂的矛頭指向內(nèi)容分發(fā)環(huán)節(jié),但也和內(nèi)容生產(chǎn)不無(wú)關(guān)系。 對(duì)于各類研報(bào)/文案/手冊(cè),由于這些文檔會(huì)成為人類行為的指導(dǎo)。因此從這個(gè)角度來(lái)說(shuō),AI會(huì)深刻影響各方面的人類行為。 代碼:寫代碼、改代碼、調(diào)試代碼,都不在話下。
- 教育培訓(xùn)ChatGPT在教育培訓(xùn)領(lǐng)域的應(yīng)用,主要集中在中英口語(yǔ)和作文輔導(dǎo)上,這與ChatGPT背后基于海量數(shù)據(jù)生成的AI大模型息息相關(guān)。它把能獲取的人類書籍、學(xué)術(shù)論文、新聞、高質(zhì)量的各種信息作為學(xué)習(xí)內(nèi)容,并根據(jù)人類反饋強(qiáng)化學(xué)習(xí)。該技術(shù)的突破也使得ChatGPT的對(duì)話更貼近人類,語(yǔ)段間邏輯關(guān)聯(lián)度顯著提升。ChatGPT還可以作為有效的教學(xué)輔導(dǎo)工具,發(fā)揮其強(qiáng)大的“智能”作用,幫助老師為學(xué)生提供個(gè)性化的教學(xué)輔導(dǎo),進(jìn)一步提高老師教學(xué)、學(xué)生學(xué)習(xí)的效率。ChatGPT扮演著類似“班主任”的管理身份,一是可以幫助學(xué)生盡快地學(xué)習(xí)這堂課里面的所有的精髓要點(diǎn),二是能夠完整地跟蹤學(xué)生的自己的學(xué)習(xí)的一個(gè)進(jìn)度和學(xué)習(xí)的這種對(duì)知識(shí)的掌握程度,給學(xué)生可以進(jìn)行練習(xí)和提問(wèn),這樣就加大了這學(xué)生對(duì)課程的一種掌握能力。
- 自然語(yǔ)言處理這是ChatGPT的看家本領(lǐng),由于ChatGPT具有良好的語(yǔ)言理解能力,當(dāng)前NLP應(yīng)用的的所有應(yīng)用領(lǐng)域,都將得到極大的增強(qiáng)。例如語(yǔ)音助手、醫(yī)療。幾乎所有任務(wù),包括分詞句法等底層任務(wù)、信息抽取、機(jī)器翻譯、智能寫作。小樣本、遷移學(xué)習(xí)等研究方向。所有領(lǐng)域都面臨重新思考。這比5年前BERT產(chǎn)生的影響大一個(gè)數(shù)量級(jí)。 用于自然語(yǔ)言生成:由于ChatGPT具有良好的語(yǔ)言理解能力,它可以被用于生成各種文本類型的內(nèi)容,包括新聞文章、腳本、音頻劇本等。 用于文本摘要:ChatGPT可以用于從大量文本中提取摘要信息,幫助人們快速了解文本內(nèi)容。 用于機(jī)器翻譯:ChatGPT可以用于翻譯大量的文本內(nèi)容,并且比傳統(tǒng)機(jī)器翻譯系統(tǒng)更快更準(zhǔn)確。 用于對(duì)話系統(tǒng):ChatGPT可以模擬人類對(duì)話,并生成自然語(yǔ)言回復(fù)。它可以用于客服系統(tǒng)、聊天機(jī)器人等應(yīng)用場(chǎng)景。
3.1ChatGPT原理
3.1 ChatGPT基石之Transformer
ChatGPT全稱Generative Pre-Training Transfomer,我們來(lái)拆解一下,Generative:可生成的,生成式的
Pre-Training:預(yù)訓(xùn)練
Transfomer:專有名詞不譯為好。直譯:變換器 意譯:依靠自注意機(jī)制將輸入嵌入序列轉(zhuǎn)換為輸出嵌入序列,不依賴卷積或循環(huán)神經(jīng)網(wǎng)絡(luò)的一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
3.1.1Transformer結(jié)構(gòu)圖
如下圖所示,Transformer由self-Attenion和Feed Forward Neural Network組成
3.1.2 Transformer結(jié)構(gòu)圖
如下圖所示,Transformer由四部分組成
- Input(輸入)
- Encoder block
- Decoder block
- output(輸出)
* 關(guān)于Transformer的詳細(xì)原理請(qǐng)關(guān)注我的文章
3.2 ChatGPT訓(xùn)練過(guò)程
3.2.1 訓(xùn)練監(jiān)督策略模型
GPT 3.5本身很難理解人類不同類型指令中蘊(yùn)含的不同意圖,也很難判斷生成內(nèi)容是否是高質(zhì)量的結(jié)果。為了讓GPT 3.5初步具備理解指令的意圖,首先會(huì)在數(shù)據(jù)集中隨機(jī)抽取問(wèn)題,由專業(yè)的人類標(biāo)注人員,給出每個(gè)問(wèn)題(prompt)的高質(zhì)量答案,形成(prompt,answer)問(wèn)答對(duì),然后用這些人工標(biāo)注好的數(shù)據(jù)來(lái)微調(diào) GPT-3.5模型(獲得SFT模型, Supervised Fine-Tuning)。
經(jīng)過(guò)這個(gè)過(guò)程,可以認(rèn)為SFT初步具備了理解人類問(wèn)題中所包含意圖,并根據(jù)這個(gè)意圖給出相對(duì)高質(zhì)量回答的能力,但是很明顯,僅僅這樣做是不夠的,因?yàn)槠浠卮鸩灰欢ǚ先祟惼谩?/p>
3.2.2 訓(xùn)練獎(jiǎng)勵(lì)模型
這個(gè)階段主要是通過(guò)人工標(biāo)注訓(xùn)練數(shù)據(jù),來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Mode)。在數(shù)據(jù)集中隨機(jī)抽取問(wèn)題,使用第一階段訓(xùn)練得到的模型,對(duì)于每個(gè)問(wèn)題,生成多個(gè)不同的回答。人類標(biāo)注者對(duì)這些結(jié)果綜合考慮(例如:相關(guān)性、富含信息性、有害信息等諸多標(biāo)準(zhǔn))給出排名順序。這一過(guò)程類似于教練或老師輔導(dǎo)。
接下來(lái),使用這個(gè)排序結(jié)果數(shù)據(jù)來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型。對(duì)多個(gè)排序結(jié)果,兩兩組合,形成多個(gè)訓(xùn)練數(shù)據(jù)對(duì)。獎(jiǎng)勵(lì)模型接受一個(gè)輸入,給出評(píng)價(jià)回答質(zhì)量的分?jǐn)?shù)。這樣,對(duì)于一對(duì)訓(xùn)練數(shù)據(jù),調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高。
3.2.3 使用強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)模型的能力
PPO(Proximal Policy Optimization,近端策略優(yōu)化)強(qiáng)化學(xué)習(xí)模型的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過(guò)程轉(zhuǎn)化為Off-policy,即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí),這個(gè)轉(zhuǎn)化過(guò)程被稱之為Importance Sampling。PPO由第一階段的監(jiān)督策略模型來(lái)初始化模型的參數(shù),這一階段利用第二階段訓(xùn)練好的獎(jiǎng)勵(lì)模型,靠獎(jiǎng)勵(lì)打分來(lái)更新預(yù)訓(xùn)練模型參數(shù)。具體而言,在數(shù)據(jù)集中隨機(jī)抽取問(wèn)題,使用PPO模型生成回答,并用上一階段訓(xùn)練好的獎(jiǎng)勵(lì)模型給出質(zhì)量分?jǐn)?shù)。把獎(jiǎng)勵(lì)分?jǐn)?shù)依次傳遞,由此產(chǎn)生策略梯度,通過(guò)強(qiáng)化學(xué)習(xí)的方式以更新PPO模型參數(shù)。
如果我們不斷重復(fù)第二和第三階段,通過(guò)迭代,會(huì)訓(xùn)練出更高質(zhì)量的ChatGPT模型。
4.如何使用ChatGPT
關(guān)于如何注冊(cè)ChatGPT請(qǐng)關(guān)注我的文章
4.1 回復(fù)郵件或回信
每隔一段時(shí)間,我們的郵箱總是會(huì)收到很多積壓郵件,其中很多商務(wù)性質(zhì)的郵件需要我們一一回復(fù)。這些商務(wù)郵件的回復(fù)涉及人情世故,要仔細(xì)把握語(yǔ)氣,認(rèn)真遣詞造句,非常費(fèi)神。這些工作不如交給ChatGPT來(lái)代筆,比如讓ChatGPT “幫我寫商務(wù)郵件回信,告知對(duì)方需求已經(jīng)收到,我們正在全力跟進(jìn)”。
在給別人回信時(shí),也可以使用ChatGPT來(lái)回復(fù),比如感謝朋友的來(lái)信,讓ChatGPT寫一封感謝朋友并邀請(qǐng)朋友來(lái)家做客的信件。
4.2 修改代碼
可以使用ChatGPT修復(fù)代碼中的錯(cuò)誤并獲得調(diào)試幫助,同時(shí)也可以讓ChatGPT寫帶有注釋的代碼,極大簡(jiǎn)化了程序員的工作流程
4.3 寫作/寫文章
可以使用ChatGPT生成初稿,提高工作效率,同時(shí)也可以將其作為素材使用。當(dāng)然,在閑暇之余,還可以使用ChatGPT寫幾首詩(shī)陶冶陶冶自己的情操,并且可以問(wèn)ChatGPT幾個(gè)有趣的問(wèn)題娛樂(lè)一下,放松放松心情。
5.ChatGPT的不足與挑戰(zhàn)
5.1 ChatGPT的不足
5.1.1 訓(xùn)練數(shù)據(jù)可能存在偏差
ChatGPT的訓(xùn)練數(shù)據(jù)是基于互聯(lián)網(wǎng)世界海量文本數(shù)據(jù)的,如果這些文本數(shù)據(jù)本身不準(zhǔn)確或者帶有某種偏見(jiàn),目前的ChatGPT是無(wú)法進(jìn)行分辨的,因此在回答問(wèn)題的時(shí)候會(huì)不可避免的將這種不準(zhǔn)確以及偏見(jiàn)傳遞出來(lái)。
5.1.2 訓(xùn)練成本高昂
ChatGPT屬于NPL領(lǐng)域中的非常大的深度學(xué)習(xí)模型,其訓(xùn)練參數(shù)以及訓(xùn)練數(shù)據(jù)都非常巨大,因此如果想訓(xùn)練ChatGPT就需要使用大型數(shù)據(jù)中心以及云計(jì)算資源,以及大量的算力和存儲(chǔ)空間來(lái)處理海量的訓(xùn)練數(shù)據(jù),簡(jiǎn)單來(lái)說(shuō)訓(xùn)練和使用ChatGPT的成本還是非常高的。
5.1.3 適用場(chǎng)景局限
目前ChatGPT主要可以處理自然語(yǔ)言方面的問(wèn)答以及任務(wù),在其他領(lǐng)域比如圖像識(shí)別、語(yǔ)音識(shí)別等還不局必然相應(yīng)的處理能力,但是相信在不遠(yuǎn)的將來(lái)可能會(huì)有結(jié)合圖片,視頻,音頻的GPT,讓我們拭目以待。
5.2 ChatGPT面臨的挑戰(zhàn)
5.2.1 語(yǔ)料庫(kù)獲取途徑問(wèn)題
如果ChatGPT通過(guò)抓取互聯(lián)網(wǎng)上的信息獲得其訓(xùn)練數(shù)據(jù),可能并不合法。網(wǎng)站上的隱私政策條款本身表明數(shù)據(jù)不能被第三方收集,ChatGPT抓取數(shù)據(jù)會(huì)涉及違反合同。在許多司法管轄區(qū),合理使用原則在某些情況下允許未經(jīng)所有者同意或版權(quán)使用信息,包括研究、引用、新聞報(bào)道、教學(xué)諷刺或批評(píng)目的。但是ChatGPT并不適用該原則,因?yàn)楹侠硎褂迷瓌t只允許訪問(wèn)有限信息,而不是獲取整個(gè)網(wǎng)站的信息。在個(gè)人層面,ChatGPT需要解決未經(jīng)用戶同意大量數(shù)據(jù)抓取是否涉及侵犯?jìng)€(gè)人信息的問(wèn)題。
5.2.2 數(shù)據(jù)安全
用戶在使用ChatGPT時(shí)會(huì)輸入信息,由于ChatGPT強(qiáng)大的功能,一些員工使用ChatGPT輔助其工作,這引起了公司對(duì)于商業(yè)秘密泄露的擔(dān)憂。因?yàn)檩斎氲男畔⒖赡軙?huì)被用作ChatGPT進(jìn)一步迭代的訓(xùn)練數(shù)據(jù)。
5.2.3 刪除權(quán)限
ChatGPT用戶必須同意公司可以使用用戶和ChatGPT產(chǎn)生的所有輸入和輸出,同時(shí)承諾ChatGPT會(huì)從其使用的記錄中刪除所有個(gè)人身份信息。然而ChatGPT未說(shuō)明其如何刪除信息,而且由于被收集的數(shù)據(jù)將用于ChatGPT不斷的學(xué)習(xí)中,很難保證完全擦除個(gè)人信息痕跡。
6.總結(jié)
ChatGPT可以說(shuō)是人工智能發(fā)展史上的里程碑之作,它使得人類距離通用人工智能,強(qiáng)人工智能更近了一步,ChatGPT強(qiáng)大的功能令人瞠目結(jié)舌,同時(shí)它也面臨著諸多挑戰(zhàn),但是我們可以相信,在不遠(yuǎn)的將來(lái),ChatGPT一定會(huì)邁上新的臺(tái)階,強(qiáng)人工智能時(shí)代也終將會(huì)到來(lái),那時(shí)的人類社會(huì)一定會(huì)發(fā)生前所未有的新變化,也終將迎來(lái)第五次工業(yè)革命,人工智能也終將成為人類發(fā)展史上璀璨的明珠文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-400115.html
7.歡迎大家加入 ChatGPT智庫(kù)(知識(shí)星球 or 專欄)
7.1 這是我跟我的朋友們一起創(chuàng)建的星球,里面有很多全球top20碩博以及海內(nèi)外行業(yè)大佬,知識(shí)分享不易,希望大家多多支持!萬(wàn)分感謝
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-400115.html
7.2 同時(shí)如果不想使用知識(shí)星球APP,也可以訂閱我的專欄【ChatGPT智庫(kù)】ChatGPT智庫(kù)專欄訂閱鏈接,兩者提供的內(nèi)容差不多,希望大家多多支持!萬(wàn)分感謝
到了這里,關(guān)于人工智能里程碑ChatGPT之最全詳解圖解的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!