国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

聊聊ChatGPT是如何組織對話的

2年前作者：CompHub分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了聊聊ChatGPT是如何組織對話的。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

為什么要組織對話？

總所周知，ChatGPT的訓(xùn)練大致可分為下圖中展示的幾個階段，其中，在Pretraining階段，模型的訓(xùn)練數(shù)據(jù)是純文本，目標(biāo)是根據(jù)上文預(yù)測下一個token，而在后面的幾個階段中，為了讓模型具備對話的能力，相應(yīng)的就需要使用對話數(shù)據(jù)進(jìn)行訓(xùn)練。而對話數(shù)據(jù)一般包含多個角色的文本，如何將這些文本有效地組織、拼接起來（openAI將其稱之為Chat Markup Language，簡稱ChatML），是本文要聊的內(nèi)容。

聊聊ChatGPT是如何組織對話的,人工智能,chatgpt

from Microsoft Build 2023 《State of GPT》

ChatGPT的ChatML

根據(jù)openAI的介紹[1]，ChatML v0會將每個角色（system、user、assistant）的文本進(jìn)行如下拼接：

<|im_start|>system
You?are?ChatGPT,?a?large?language?model?trained?by?OpenAI.?Answer?as?concisely?as?possible.
Knowledge?cutoff:?2021-09-01
Current?date:?2023-03-01<|im_end|>
<|im_start|>user
How?are?you<|im_end|>
<|im_start|>assistant
I?am?doing?well!<|im_end|>
<|im_start|>user
How?are?you?now?<|im_end|>

其中<|im_start|>、<|im_end|>是special token，進(jìn)行tokenizer encode的時候他們會被編碼成對應(yīng)的單個token id，他們專門用來表示一個角色說話的start和end。

那么，如果對話文本中包含了<|im_end|>豈不是會造成模型的困擾？為了防止這種類型的注入攻擊，似乎openAI會將對話文本中的<|im_start|>、<|im_end|>過濾掉。

聊聊ChatGPT是如何組織對話的,人工智能,chatgpt

可能是過濾了<|im_start|>，ChatGPT的回復(fù)中沒有提到<|im_start|>

聊聊ChatGPT是如何組織對話的,人工智能,chatgpt

將<|im_start|>改成<im_start>，ChatGPT能夠完整輸出用戶剛剛的問題

另外，值得注意的是system prompt中的小trick，其中包含了Current date的信息，在響應(yīng)用戶提問的時候進(jìn)行動態(tài)的修改，使模型能夠回復(fù)一些和當(dāng)前日期相關(guān)的問題。

聊聊ChatGPT是如何組織對話的,人工智能,chatgpt

聊聊ChatGPT是如何組織對話的,人工智能,chatgpt

當(dāng)這只是ChatML v0的格式，是3月份時候的版本了，最新版的gpt-3.5-turbo-0613中角色增加了function，目前ChatGPT的ChatML演進(jìn)到了什么格式還是未知，一些眼尖的開發(fā)者也發(fā)現(xiàn)了當(dāng)前的ChatML已經(jīng)不是v0了[2]。

StarChat的ChatML

ChatML的格式不止openAI一種，StarChat提供了另一種思路[3]：

<|system|>
Below?is?a?dialogue?between?a?human?and?AI?assistant?called?StarChat.
<|end|>
<|user|>
Is?it?possible?to?imagine?a?society?without?law?<|end|>
<|assistant|>
It?is?difficult?to?imagine?...<|end|>
<|user|>
It?seems?like?you?...<|end|>
<|assistant|>
You?are?correct?...<|end|>
<|user|>
Yeah,?but?laws?are?complicated?...<|end|>

其中<|system|>、<|assistant|>、<|user|>、<|end|>是special token，[3]中很貼心地提供詳細(xì)的代碼，感興趣的讀者可以進(jìn)一步了解。

將角色信息用special token表示，可以更好的避免注入攻擊，但由于這些special token對應(yīng)的embedding在預(yù)訓(xùn)練階段是未經(jīng)過訓(xùn)練的，在SFT過程中需要充分的訓(xùn)練才能有好的表現(xiàn)。

總結(jié)

ChatML是訓(xùn)練對話大模型的一個小細(xì)節(jié)，本文介紹的兩種方式都是利用了special token來顯式表示對話的邊界，同時還能節(jié)約上下文的空間，相比于直接使用###user xxx ###assistant xxx是要更好的。

The devil is in the detail.

Reference

[1]?openai-python/chatml.md

[2]?ChatML update for th gpt-3.5-turbo-0613 and gpt-4

[3]?使用 StarCoder 創(chuàng)建一個編程助手文章來源地址http://www.zghlxwxcb.cn/news/detail-516296.html

到了這里，關(guān)于聊聊ChatGPT是如何組織對話的的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

ChatGPT 國內(nèi)鏡像網(wǎng)站獨(dú)家匯總：發(fā)現(xiàn)最優(yōu)秀的人工智能對話體驗
Tomchat：點擊傳送支持gpt4 / gpt-3.5 / claude 支持 AI繪畫每天十次免費(fèi)使用機(jī)會無需魔法 wuguokai 這個網(wǎng)站是設(shè)計模式老師推薦的，不強(qiáng)制用戶。并且滿足毫秒級響應(yīng)。 https://chat.wuguokai.cn AIDuTu 無需登錄，直接使用，挺好的 https://chat.jubianxingqiu.com/
2024年02月09日
瀏覽(109)
ChatGPT人工智能對話系統(tǒng)源碼一款非常強(qiáng)大的AI智能系統(tǒng) 附帶完整的搭建教程
隨著人工智能技術(shù)的不斷發(fā)展，對話系統(tǒng)作為人機(jī)交互的重要方式，已經(jīng)成為了各個領(lǐng)域的熱門應(yīng)用。ChatGPT作為一款強(qiáng)大的人工智能對話系統(tǒng)，備受關(guān)注。它基于深度學(xué)習(xí)技術(shù)，通過學(xué)習(xí)大量的語料庫，實現(xiàn)了自然語言理解和生成的能力，能夠與用戶進(jìn)行智能化的交互。以
2024年01月17日
瀏覽(30)
對話人工智能 |新時代AI如何“落地“
前言： Comate代碼助手推出，現(xiàn)場生成了貪吃蛇游戲，我們距離AI自動編程還有多遠(yuǎn)？在過去的幾十年里，AI的發(fā)展取得了顯著的進(jìn)展，尤其是在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域。然而，將AI應(yīng)用于自動編程這一復(fù)雜任務(wù)依然面臨著挑戰(zhàn)。 AI自動編程的實現(xiàn)需要解決多個難題。首先，
2024年02月08日
瀏覽(31)
人工智能與人類智能的對話：如何實現(xiàn)安全與隱私的平衡
人工智能(Artificial Intelligence, AI)和人類智能(Human Intelligence, HI)是兩個不同的概念。AI 是指一種使用計算機(jī)程序和算法模擬、擴(kuò)展和自動化人類智能的技術(shù)。HI 則是指人類的認(rèn)知、理解、決策和行動能力。在過去的幾年里，人工智能技術(shù)的發(fā)展非常迅猛，它已經(jīng)被廣泛應(yīng)用于各
2024年01月19日
瀏覽(25)
人工智能時代，如何借助新技術(shù)實現(xiàn)突破？| 圓桌對話
繼上篇介紹完干貨滿滿的議題分享后，更精彩的圓桌論壇銜尾相隨。本次圓桌對話以“人工智能時代，如何借助新技術(shù)實現(xiàn)突破？”為主題，由華銳技術(shù)機(jī)構(gòu)市場團(tuán)隊負(fù)責(zé)人-高媛主持，邀請了AMD中國區(qū)數(shù)據(jù)中心事業(yè)部資深架構(gòu)師-梁朝軍，火山引擎證券行業(yè)解決方案負(fù)責(zé)人-陳
2024年02月19日
瀏覽(19)
ChatGPT 是一種受到廣泛關(guān)注的人工智能技術(shù)，它具備生成自然語言的能力，能夠完成一些簡單的文本生成、對話交互等任務(wù)。隨著人工智能技術(shù)的不斷發(fā)展，有人開始質(zhì)疑 ChatGPT 是否能取代程序員，推動
ChatGPT 是一種受到廣泛關(guān)注的人工智能技術(shù)，它具備生成自然語言的能力，能夠完成一些簡單的文本生成、對話交互等任務(wù)。隨著人工智能技術(shù)的不斷發(fā)展，有人開始質(zhì)疑? ChatGPT 是否能取代程序員，推動著人類的智能化進(jìn)程。本文將圍繞“ChatGPT 能否取代程序員？”這一問
2024年02月02日
瀏覽(26)
人工智能ChatGPT如何下載？
人工智能是近年來備受關(guān)注的熱門話題，其中ChatGPT更是備受矚目。ChatGPT是一種基于人工智能技術(shù)的自然語言處理模型，它可以通過學(xué)習(xí)大量的文本數(shù)據(jù)，自主生成符合語法、通順、流暢的文本。這項技術(shù)在人機(jī)交互、聊天機(jī)器人、文本生成等應(yīng)用領(lǐng)域都有著廣泛的應(yīng)用。如
2024年02月08日
瀏覽(28)
如何學(xué)習(xí)和規(guī)劃類似ChatGPT這種人工智能（AI）相關(guān)技術(shù)
學(xué)習(xí)和規(guī)劃類似ChatGPT這種人工智能（AI）相關(guān)技術(shù)的路徑通常包括以下步驟：學(xué)習(xí)基礎(chǔ)知識：學(xué)習(xí)編程：首先，你需要學(xué)習(xí)一種編程語言，例如Python，這是大多數(shù)人工智能項目的首選語言。數(shù)學(xué)基礎(chǔ)：深度學(xué)習(xí)和自然語言處理等領(lǐng)域需要一定的數(shù)學(xué)基礎(chǔ)，包括線性代數(shù)、微
2024年02月19日
瀏覽(18)
自然語言處理（NLP）一直是人工智能領(lǐng)域的一項重要任務(wù)，其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析?
作者：禪與計算機(jī)程序設(shè)計藝術(shù) 自然語言處理（NLP）一直是人工智能領(lǐng)域的一項重要任務(wù)，其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析，成為一個重要研究課題。近年來，隨著計算能力的提升和硬件性能的增強(qiáng)，大規(guī)模
2024年02月09日
瀏覽(21)
發(fā)現(xiàn)最優(yōu)秀的人工智能對話體驗
Tomchat：點擊傳送支持gpt4 / gpt-3.5 / claude 支持 AI繪畫每天十次免費(fèi)使用機(jī)會無需魔法 wuguokai 這個網(wǎng)站是設(shè)計模式老師推薦的，不強(qiáng)制用戶。并且滿足毫秒級響應(yīng)。 https://chat.wuguokai.cn AIDuTu 無需登錄，直接使用，挺好的 https://chat.jubianxingqiu.com/
2024年02月15日
瀏覽(22)