GPT擅長(zhǎng)回答問題,但是只能回答它以前被訓(xùn)練過的問題,如果是沒有訓(xùn)練過的數(shù)據(jù),比如一些私有數(shù)據(jù)或者最新的數(shù)據(jù)該怎么辦呢?
這種情況下通常有兩種辦法,一種是微調(diào)(fine-tuning),一種是嵌入(embedding)。
微調(diào)就是在大模型的數(shù)據(jù)基礎(chǔ)上做二次訓(xùn)練,事先準(zhǔn)備好一批prompt-complition(類似于問答Q&A)的數(shù)據(jù),生成新的模型,這個(gè)模型將會(huì)包含微調(diào)后的數(shù)據(jù)。而嵌入則是每次向ChatGPT發(fā)送消息(prompt)的時(shí)候,把你自己數(shù)據(jù)結(jié)果帶上。
王建碩老師對(duì)于微調(diào)和嵌入有過精妙的比喻:
ChatGPT就像一個(gè)已經(jīng)訓(xùn)練好的家政阿姨,她懂中文,會(huì)做家務(wù),但是對(duì)你家里的情況不了解。
微調(diào)就相當(dāng)于阿姨第一次到你家干活的時(shí)候,你要花一小時(shí)時(shí)間告訴她家里的情況,比如物件的擺放、哪些地方不能動(dòng),哪些地方要重點(diǎn)照顧。
嵌入就相當(dāng)于你省去了對(duì)阿姨進(jìn)行二次培訓(xùn)的,而是在家里貼滿紙條,這樣阿姨一看到紙條就知道該怎么做了。
OpenAI的Cookbook也有類似的比喻
微調(diào)就像你通過學(xué)習(xí)準(zhǔn)備考試,是一種長(zhǎng)期記憶,但過了一周后考試來臨,模型可能會(huì)忘記襲擊,或者記錯(cuò)它從來沒有讀過的事實(shí)。嵌入就像記筆記,是一種短期記憶,當(dāng)考試的時(shí)候,你把筆記帶上,隨時(shí)翻看筆記,對(duì)于筆記上有的內(nèi)容可以得到準(zhǔn)確的答案。
另外嵌入的搜索提問方式相對(duì)于微調(diào)有一個(gè)缺點(diǎn)就是它每次附帶的文本數(shù)量是有限制的,因?yàn)槌嗽嫉膯栴},它還需要帶上搜索出來的問題,GPT-3.5是4K(大約5頁),GPT-4最大是32K(大約40頁)。
就好比你有成書架的教科書可以借鑒,但每次卻只能翻看其中幾頁筆記。
如果你想構(gòu)建一個(gè)對(duì)大量文本問答的系統(tǒng),OpenAI建議“搜索-問”(Search-Ask)的方法。
也就是先在本地文檔庫中Search,拿到本地的數(shù)據(jù)結(jié)果,再去Ask,把搜索結(jié)果和問題一起交給GPT,這樣GPT可以根據(jù)你提供的內(nèi)容以及它模型中的數(shù)據(jù),一起將結(jié)果返還給你。
至于如何搜索,并非一定要基于向量的搜索,可以有多重搜索方式:
- 基于關(guān)鍵字搜索
- 基于圖形的搜索
- 基于向量的搜索
至于在技術(shù)上如何實(shí)現(xiàn),OpenAI的Cookbook上也有詳細(xì)的介紹。
更多細(xì)節(jié)建議參考:
github.com/openai/openai-cookbook/blob/main/examples/Question_answering_using_embeddings.ipynb
文章來源地址http://www.zghlxwxcb.cn/news/detail-613149.html
文章來源:http://www.zghlxwxcb.cn/news/detail-613149.html
到了這里,關(guān)于openai模型個(gè)性化訓(xùn)練Embedding和fine-tuning區(qū)別的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!