国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLM探索:GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

這篇具有很好參考價值的文章主要介紹了LLM探索:GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

前言

上一篇文章介紹了幾個開源LLM的環(huán)境搭建和本地部署,在使用ChatGPT接口或者自己本地部署的LLM大模型的時候,經(jīng)常會遇到這幾個參數(shù),本文簡單介紹一下~

  • temperature
  • top_p
  • top_k

關(guān)于LLM

上一篇也有介紹過,這次看到一個不錯的圖

A recent breakthrough in artificial intelligence (AI) is the introduction of language processing technologies that enable us to build more intelligent systems with a richer understanding of language than ever before. Large pre-trained Transformer language models, or simply large language models, vastly extend the capabilities of what systems are able to do with text.

LLM探索:GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

LLM看似很神奇,但本質(zhì)還是一個概率問題,神經(jīng)網(wǎng)絡(luò)根據(jù)輸入的文本,從預(yù)訓(xùn)練的模型里面生成一堆候選詞,選擇概率高的作為輸出,上面這三個參數(shù),都是跟采樣有關(guān)(也就是要如何從候選詞里選擇輸出)。

temperature

用于控制模型輸出的結(jié)果的隨機(jī)性,這個值越大隨機(jī)性越大。一般我們多次輸入相同的prompt之后,模型的每次輸出都不一樣。

  • 設(shè)置為 0,對每個prompt都生成固定的輸出
  • 較低的值,輸出更集中,更有確定性
  • 較高的值,輸出更隨機(jī)(更有創(chuàng)意??)

LLM探索:GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

一般來說,prompt 越長,描述得越清楚,模型生成的輸出質(zhì)量就越好,置信度越高,這時可以適當(dāng)調(diào)高 temperature 的值;反過來,如果 prompt 很短,很含糊,這時再設(shè)置一個比較高的 temperature 值,模型的輸出就很不穩(wěn)定了。

遇事不決就調(diào)參,調(diào)一下,萬一就生成了不錯的回答呢?

PS:ChatGLM提供的例子把范圍限定在0-1之間。

top_k & top_p

這倆也是采樣參數(shù),跟 temperature 不一樣的采樣方式。

前面有介紹到,模型在輸出之前,會生成一堆 token,這些 token 根據(jù)質(zhì)量高低排名。

比如下面這個圖片,輸入 The name of that country is the 這句話,模型生成了一堆 token,然后根據(jù)不同的 decoding strategy 從 tokens 中選擇輸出。

LLM探索:GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

這里的 decoding strategy 可以選擇

  • greedy decoding: 總是選擇最高分的 token,有用但是有些弊端,詳見下文
  • top-k: 從 tokens 里選擇 k 個作為候選,然后根據(jù)它們的 likelihood scores 來采樣
  • top-p: 候選詞列表是動態(tài)的,從 tokens 里按百分比選擇候選詞

top-k 與 top-p 為選擇 token 引入了隨機(jī)性,讓其他高分的 token 有被選擇的機(jī)會,不像 greedy decoding 一樣總是選最高分的。

greedy decoding

好處是簡單,壞處是容易生成循環(huán)、重復(fù)的內(nèi)容

Greedy decoding is a reasonable strategy but has some drawbacks such as outputs with repetitive loops of text. Think of the suggestions in your smartphone's auto-suggest. When you continually pick the highest suggested word, it may devolve into repeated sentences.

top-k

設(shè)置越大,生成的內(nèi)容可能性越大;

設(shè)置越小,生成的內(nèi)容越固定;

設(shè)置為1時,和 greedy decoding 效果一樣。

LLM探索:GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

Changing the top-k parameter sets the size of the shortlist the model samples from as it outputs each token. Setting top-k to 1 gives us greedy decoding.

top-p

top-p 又名 Nucleus Sampling(核采樣)

與 top-k 固定選取前 k 個 tokens 不同,top-p 選取的 tokens 數(shù)量不是固定的,這個方法是設(shè)定一個概率閾值。

繼續(xù)上面的例子,將 top-p 設(shè)定為 0.15,即選擇前 15% 概率的 tokens 作為候選。如下圖所示,United 和 Netherlands 的概率加起來為 15% ,所以候選詞就是這倆,最后再從這些候選詞里,根據(jù)概率分?jǐn)?shù),選擇 united 這個詞。

LLM探索:GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature

Top-p is usually set to a high value (like 0.75) with the purpose of limiting the long tail of low-probability tokens that may be sampled. We can use both top-k and top-p together. If both k and p are enabled, p acts after k.

經(jīng)常遇到的默認(rèn) top-p 值就是 0.7/0.8 這樣,還是那個說法,設(shè)置太低模型的輸出太固定,設(shè)置太高,模型徹底放飛自我也不好。文章來源地址http://www.zghlxwxcb.cn/news/detail-457174.html

參考資料

  • https://docs.cohere.com/docs/controlling-generation-with-top-k-top-p
  • https://docs.cohere.com/docs/temperature
  • https://mp.weixin.qq.com/s/IswrgDEn94vy5dCO51I1sw

到了這里,關(guān)于LLM探索:GPT類模型的幾個常用參數(shù) Top-k, Top-p, Temperature的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Ansible操作MySQL常用的幾個模塊

    mysql_user模塊用來添加,刪除用戶以及設(shè)置用戶權(quán)限 創(chuàng)建MySQL數(shù)據(jù)庫的用戶與口令(非root@localhost用戶),直接通過playbooks中的案例來說明吧。 說明,這個案例中,有提到常見的錯誤,例如有關(guān)login_unix_socket參數(shù)不設(shè)置,可能導(dǎo)致的錯誤。 補(bǔ)充:假如各個DB的期望賦予的權(quán)限不

    2024年02月06日
    瀏覽(20)
  • 面試題 : Top-k問題

    面試題 : Top-k問題

    目錄 簡介 題目 示例 提示 開始解題 1.思路 2.解題代碼 3.時間復(fù)雜度 4.運(yùn)行結(jié)果 ?編輯 目前問題 真正的解法 1.以找前K個最大的元素為例 2.代碼執(zhí)行過程時間復(fù)雜度的計算 3.畫圖演示代碼執(zhí)行過程 4.解題代碼 兩種解法的比較 完結(jié)撒花?ヽ(°▽°)ノ? ? 博主推薦:畢竟面試題

    2024年02月12日
    瀏覽(21)
  • IO的幾個模型

    IO的幾個模型

    說到I/O模型,都會牽扯到同步、異步、阻塞、非阻塞這幾個詞,以下講解這幾個詞的概念。 阻塞和非阻塞 阻塞和非阻塞指的是一直等還是可以去做其他事。 阻塞(一直等水燒開)(blocking): 調(diào)用結(jié)果返回之前,調(diào)用者被掛起(當(dāng)前線程進(jìn)入非可執(zhí)行狀態(tài),在這個狀態(tài),CPU不

    2024年02月12日
    瀏覽(20)
  • 堆的應(yīng)用:Top-K問題

    堆的應(yīng)用:Top-K問題

    朋友們、伙計們,我們又見面了,本期來給大家解讀一下堆的應(yīng)用--Top-K問題的相關(guān)知識點,如果看完之后對你有一定的啟發(fā),那么請留下你的三連,祝大家心想事成! 數(shù)據(jù)結(jié)構(gòu)與算法專欄 :數(shù)據(jù)結(jié)構(gòu)與算法 個? 人? 主? 頁 :stackY、 C 語 言 專 欄 :C語言:從入門到精通 目

    2024年02月07日
    瀏覽(26)
  • 數(shù)據(jù)結(jié)構(gòu) | TOP-K問題

    數(shù)據(jù)結(jié)構(gòu) | TOP-K問題

    TOP-K問題:即求數(shù)據(jù)結(jié)合中前K個最大的元素或者最小的元素,一般情況下數(shù)據(jù)量都比較大。 就是從N個數(shù)里面找最大前K個(N遠(yuǎn)大于K) 思路一: N個數(shù)插入到堆里面,PopK次 時間復(fù)雜度是 O(N*logN) + K*logN == O(N*logN) N很大很大,假設(shè)N是100億,K是10 100億個整數(shù)大概需要40G左右 所以

    2024年02月05日
    瀏覽(21)
  • 堆排序之“TOP-K”問題

    堆排序之“TOP-K”問題

    目錄 一、什么是TOP-K問題 二、解決思路? 一般的正常思路: 最優(yōu)的解決思路: 三、文件流中實踐TOP-K方法? 創(chuàng)建包含足夠多整數(shù)的文件: 向下調(diào)整算法 找出最大的K個數(shù) 完整版代碼: 前面我已經(jīng)學(xué)習(xí)過使用“堆排序”對數(shù)組排降序了,接下來再來看一個堆排序的應(yīng)用場景。

    2024年02月06日
    瀏覽(18)
  • 【數(shù)據(jù)結(jié)構(gòu)】堆的應(yīng)用——Top-K

    目錄 前言: 一、Top-K問題描述: 二、不同解決思路實現(xiàn): ①.排序法: ②.直接建堆法: ③.K堆法 總結(jié): ? ? ? ? 上篇文章我們學(xué)習(xí)了二叉樹的順序存儲結(jié)構(gòu),并且對于實際使用中所常用的順序存儲結(jié)構(gòu)——堆的各個接口進(jìn)行實現(xiàn)。這篇文章我們將對堆的實際應(yīng)用進(jìn)行更加

    2024年02月16日
    瀏覽(25)
  • 值得你收藏的幾個Stable Diffusion模型

    值得你收藏的幾個Stable Diffusion模型

    使用Stable Diffusion生成圖片,模型是非常重要的,好的模型,哪怕你的提示詞差一些、或者是很簡單的提示詞,也可以生成很不錯的圖片。這是我平時收藏的一些模型,分享給大家。 地址: https://civitai.com/models/6424 ChilloutMix是一個非常流行的模型,用于生成美女的圖像。該模型

    2024年02月05日
    瀏覽(13)
  • 二叉樹的順序結(jié)構(gòu)及實現(xiàn)(堆、Top-k)

    二叉樹的順序結(jié)構(gòu)及實現(xiàn)(堆、Top-k)

    1 二叉樹的順序結(jié)構(gòu) 2 堆的概念及結(jié)構(gòu) 3 堆的實現(xiàn) 4 堆的應(yīng)用 1 二叉樹的順序結(jié)構(gòu) ? ? ? ?普通的二叉樹是不適合用數(shù)組來存儲的,因為可能會存在大量的空間浪費(fèi)。而完全二叉樹更適合使用順序結(jié)構(gòu)存儲。 現(xiàn)實中我們通常把堆(一種二叉樹)使用順序結(jié)構(gòu)的數(shù)組來存儲,需要

    2024年02月11日
    瀏覽(22)
  • 數(shù)據(jù)結(jié)構(gòu)與算法:堆排序和TOP-K問題

    數(shù)據(jù)結(jié)構(gòu)與算法:堆排序和TOP-K問題

    朋友們大家好,本節(jié)內(nèi)容來到堆的應(yīng)用:堆排序和topk問題 我們在c語言中已經(jīng)見到過幾種排序,冒泡排序,快速排序(qsort) 冒泡排序的時間復(fù)雜度為O(N 2 ),空間復(fù)雜度為O(1);qsort排序的時間復(fù)雜度為 O(nlogn),空間復(fù)雜度為O(logn),而今天所講到的堆排序在時間與空間復(fù)雜度上相

    2024年03月08日
    瀏覽(35)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包