国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLM探索：GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

2年前作者：程序設(shè)計實驗室分類：Toy博客閱讀(64)違法舉報

這篇具有很好參考價值的文章主要介紹了LLM探索：GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

前言

上一篇文章介紹了幾個開源LLM的環(huán)境搭建和本地部署，在使用ChatGPT接口或者自己本地部署的LLM大模型的時候，經(jīng)常會遇到這幾個參數(shù)，本文簡單介紹一下~

temperature
top_p
top_k

關(guān)于LLM

上一篇也有介紹過，這次看到一個不錯的圖

A recent breakthrough in artificial intelligence (AI) is the introduction of language processing technologies that enable us to build more intelligent systems with a richer understanding of language than ever before. Large pre-trained Transformer language models, or simply large language models, vastly extend the capabilities of what systems are able to do with text.

LLM探索：GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

LLM看似很神奇，但本質(zhì)還是一個概率問題，神經(jīng)網(wǎng)絡(luò)根據(jù)輸入的文本，從預(yù)訓(xùn)練的模型里面生成一堆候選詞，選擇概率高的作為輸出，上面這三個參數(shù)，都是跟采樣有關(guān)（也就是要如何從候選詞里選擇輸出）。

temperature

用于控制模型輸出的結(jié)果的隨機(jī)性，這個值越大隨機(jī)性越大。一般我們多次輸入相同的prompt之后，模型的每次輸出都不一樣。

設(shè)置為 0，對每個prompt都生成固定的輸出
較低的值，輸出更集中，更有確定性
較高的值，輸出更隨機(jī)（更有創(chuàng)意??）

LLM探索：GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

一般來說，prompt 越長，描述得越清楚，模型生成的輸出質(zhì)量就越好，置信度越高，這時可以適當(dāng)調(diào)高 temperature 的值；反過來，如果 prompt 很短，很含糊，這時再設(shè)置一個比較高的 temperature 值，模型的輸出就很不穩(wěn)定了。

遇事不決就調(diào)參，調(diào)一下，萬一就生成了不錯的回答呢？

PS：ChatGLM提供的例子把范圍限定在0-1之間。

top_k & top_p

這倆也是采樣參數(shù)，跟 temperature 不一樣的采樣方式。

前面有介紹到，模型在輸出之前，會生成一堆 token，這些 token 根據(jù)質(zhì)量高低排名。

比如下面這個圖片，輸入 The name of that country is the 這句話，模型生成了一堆 token，然后根據(jù)不同的 decoding strategy 從 tokens 中選擇輸出。

LLM探索：GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

這里的 decoding strategy 可以選擇

greedy decoding: 總是選擇最高分的 token，有用但是有些弊端，詳見下文
top-k: 從 tokens 里選擇 k 個作為候選，然后根據(jù)它們的 likelihood scores 來采樣
top-p: 候選詞列表是動態(tài)的，從 tokens 里按百分比選擇候選詞

top-k 與 top-p 為選擇 token 引入了隨機(jī)性，讓其他高分的 token 有被選擇的機(jī)會，不像 greedy decoding 一樣總是選最高分的。

greedy decoding

好處是簡單，壞處是容易生成循環(huán)、重復(fù)的內(nèi)容

Greedy decoding is a reasonable strategy but has some drawbacks such as outputs with repetitive loops of text. Think of the suggestions in your smartphone's auto-suggest. When you continually pick the highest suggested word, it may devolve into repeated sentences.

top-k

設(shè)置越大，生成的內(nèi)容可能性越大；

設(shè)置越小，生成的內(nèi)容越固定；

設(shè)置為1時，和 greedy decoding 效果一樣。

LLM探索：GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

Changing the top-k parameter sets the size of the shortlist the model samples from as it outputs each token. Setting top-k to 1 gives us greedy decoding.

top-p

top-p 又名 Nucleus Sampling（核采樣）

與 top-k 固定選取前 k 個 tokens 不同，top-p 選取的 tokens 數(shù)量不是固定的，這個方法是設(shè)定一個概率閾值。

繼續(xù)上面的例子，將 top-p 設(shè)定為 0.15，即選擇前 15% 概率的 tokens 作為候選。如下圖所示，United 和 Netherlands 的概率加起來為 15% ，所以候選詞就是這倆，最后再從這些候選詞里，根據(jù)概率分?jǐn)?shù)，選擇 united 這個詞。

LLM探索：GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

Top-p is usually set to a high value (like 0.75) with the purpose of limiting the long tail of low-probability tokens that may be sampled. We can use both top-k and top-p together. If both k and p are enabled, p acts after k.

經(jīng)常遇到的默認(rèn) top-p 值就是 0.7/0.8 這樣，還是那個說法，設(shè)置太低模型的輸出太固定，設(shè)置太高，模型徹底放飛自我也不好。文章來源地址http://www.zghlxwxcb.cn/news/detail-457174.html

參考資料

https://docs.cohere.com/docs/controlling-generation-with-top-k-top-p
https://docs.cohere.com/docs/temperature
https://mp.weixin.qq.com/s/IswrgDEn94vy5dCO51I1sw

到了這里，關(guān)于LLM探索：GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Ansible操作MySQL常用的幾個模塊
mysql_user模塊用來添加，刪除用戶以及設(shè)置用戶權(quán)限創(chuàng)建MySQL數(shù)據(jù)庫的用戶與口令（非root@localhost用戶），直接通過playbooks中的案例來說明吧。說明，這個案例中，有提到常見的錯誤，例如有關(guān)login_unix_socket參數(shù)不設(shè)置，可能導(dǎo)致的錯誤。補(bǔ)充：假如各個DB的期望賦予的權(quán)限不
2024年02月06日
瀏覽(20)
面試題 : Top-k問題
目錄簡介題目示例提示開始解題 1.思路 2.解題代碼 3.時間復(fù)雜度 4.運(yùn)行結(jié)果 ?編輯目前問題真正的解法 1.以找前K個最大的元素為例 2.代碼執(zhí)行過程時間復(fù)雜度的計算 3.畫圖演示代碼執(zhí)行過程 4.解題代碼兩種解法的比較完結(jié)撒花?ヽ(°▽°)ノ? ? 博主推薦:畢竟面試題
2024年02月12日
瀏覽(21)
IO的幾個模型
說到I/O模型，都會牽扯到同步、異步、阻塞、非阻塞這幾個詞，以下講解這幾個詞的概念。阻塞和非阻塞阻塞和非阻塞指的是一直等還是可以去做其他事。阻塞(一直等水燒開)（blocking）：調(diào)用結(jié)果返回之前，調(diào)用者被掛起（當(dāng)前線程進(jìn)入非可執(zhí)行狀態(tài)，在這個狀態(tài)，CPU不
2024年02月12日
瀏覽(20)
堆的應(yīng)用：Top-K問題
朋友們、伙計們，我們又見面了，本期來給大家解讀一下堆的應(yīng)用--Top-K問題的相關(guān)知識點，如果看完之后對你有一定的啟發(fā)，那么請留下你的三連，祝大家心想事成！數(shù)據(jù)結(jié)構(gòu)與算法專欄：數(shù)據(jù)結(jié)構(gòu)與算法個? 人? 主? 頁：stackY、 C 語言專欄：C語言：從入門到精通目
2024年02月07日
瀏覽(26)
數(shù)據(jù)結(jié)構(gòu) | TOP-K問題
TOP-K問題：即求數(shù)據(jù)結(jié)合中前K個最大的元素或者最小的元素，一般情況下數(shù)據(jù)量都比較大。就是從N個數(shù)里面找最大前K個（N遠(yuǎn)大于K）思路一： N個數(shù)插入到堆里面，PopK次時間復(fù)雜度是 O(N*logN) + K*logN == O(N*logN) N很大很大，假設(shè)N是100億，K是10 100億個整數(shù)大概需要40G左右所以
2024年02月05日
瀏覽(21)
堆排序之“TOP-K”問題
目錄一、什么是TOP-K問題二、解決思路? 一般的正常思路：最優(yōu)的解決思路：三、文件流中實踐TOP-K方法? 創(chuàng)建包含足夠多整數(shù)的文件：向下調(diào)整算法找出最大的K個數(shù) 完整版代碼：前面我已經(jīng)學(xué)習(xí)過使用“堆排序”對數(shù)組排降序了，接下來再來看一個堆排序的應(yīng)用場景。
2024年02月06日
瀏覽(18)
【數(shù)據(jù)結(jié)構(gòu)】堆的應(yīng)用——Top-K
目錄前言：一、Top-K問題描述：二、不同解決思路實現(xiàn)： ①.排序法： ②.直接建堆法： ③.K堆法總結(jié)： ? ? ? ? 上篇文章我們學(xué)習(xí)了二叉樹的順序存儲結(jié)構(gòu)，并且對于實際使用中所常用的順序存儲結(jié)構(gòu)——堆的各個接口進(jìn)行實現(xiàn)。這篇文章我們將對堆的實際應(yīng)用進(jìn)行更加
2024年02月16日
瀏覽(25)
值得你收藏的幾個Stable Diffusion模型
使用Stable Diffusion生成圖片，模型是非常重要的，好的模型，哪怕你的提示詞差一些、或者是很簡單的提示詞，也可以生成很不錯的圖片。這是我平時收藏的一些模型，分享給大家。地址: https://civitai.com/models/6424 ChilloutMix是一個非常流行的模型，用于生成美女的圖像。該模型
2024年02月05日
瀏覽(13)
二叉樹的順序結(jié)構(gòu)及實現(xiàn)(堆、Top-k)
1 二叉樹的順序結(jié)構(gòu) 2 堆的概念及結(jié)構(gòu) 3 堆的實現(xiàn) 4 堆的應(yīng)用 1 二叉樹的順序結(jié)構(gòu) ? ? ? ?普通的二叉樹是不適合用數(shù)組來存儲的，因為可能會存在大量的空間浪費(fèi)。而完全二叉樹更適合使用順序結(jié)構(gòu)存儲。現(xiàn)實中我們通常把堆(一種二叉樹)使用順序結(jié)構(gòu)的數(shù)組來存儲，需要
2024年02月11日
瀏覽(22)
數(shù)據(jù)結(jié)構(gòu)與算法：堆排序和TOP-K問題
朋友們大家好，本節(jié)內(nèi)容來到堆的應(yīng)用：堆排序和topk問題我們在c語言中已經(jīng)見到過幾種排序，冒泡排序，快速排序（qsort）冒泡排序的時間復(fù)雜度為O(N 2 ),空間復(fù)雜度為O(1)；qsort排序的時間復(fù)雜度為 O(nlogn),空間復(fù)雜度為O(logn)，而今天所講到的堆排序在時間與空間復(fù)雜度上相
2024年03月08日
瀏覽(35)

<tfoot id="j7vxt"><div id="j7vxt"><sup id="j7vxt"></sup></div></tfoot>