- FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance
主要解決問(wèn)題
這篇文章主要是要解決如何降低調(diào)用大語(yǔ)言模型的成本(ChatGPT)。大模型API調(diào)用成本主要是三方面的:1. prompt cost(輸入的prompt);2. generation cost(輸出的部分);3. 每次調(diào)用的固定開(kāi)銷(xiāo)(網(wǎng)費(fèi)等)。不用的模型之前的差異化收費(fèi)也不一樣,比如ChatGPT 10M的token需要30美金,但是如果是調(diào)用GPT-J的話,只需要0.2美金。
如何基于query的難易程度,來(lái)調(diào)用差異化的模型?如何將相似的問(wèn)題存起來(lái),減少模型的調(diào)用?等等一些手段都可以用來(lái)減少GPT的調(diào)用,減少成本。作者提出了三種策略來(lái)減少開(kāi)銷(xiāo):
- prompt adaptation;
- LLM approximation;
- LLM cascade;
結(jié)論就是能夠減少98%的花銷(xiāo),或者是相同花銷(xiāo)下,提升4%的性能。
采用什么方法
Prompt adaptation
LLM的調(diào)用開(kāi)銷(xiāo)與query的大小呈線性遞增,因此減小prompt的長(zhǎng)度就是一個(gè)可以去減少開(kāi)銷(xiāo)的點(diǎn)。
-
prompt selections:選擇合適的,需要的QA示例:
-
query concatenation:多個(gè)query一起發(fā)送給chatgpt:
LLM approximation
如果大語(yǔ)言模型的調(diào)用很貴,那么一個(gè)簡(jiǎn)單的想法就是去近似這個(gè)大語(yǔ)言模型。不管是completion cache,還是fine-tuning都是可以的。
LLM cascade
不同的LLM APIs都具有他們各自的強(qiáng)項(xiàng)和弱項(xiàng)。
LLM cascade中兩個(gè)比較關(guān)鍵的地方是:1. scoring function;2. LLM router。
在論文中,作者是采用DistiBERT去作為這個(gè) scoring function。LLM router就是作者非常建議的設(shè)定這些閾值和順序。當(dāng)然這個(gè)也可以用大模型中的Reward Model去評(píng)分。
LLM的多樣性同時(shí)會(huì)使得最終的性能有所提升,貴的LLM APIs也不一定見(jiàn)地好。
實(shí)驗(yàn)結(jié)論
作者在一些特定的數(shù)據(jù)集上面做了實(shí)驗(yàn),以下是一些Cost和Acc的曲線圖??梢钥吹胶苌俚腻X(qián)就能夠達(dá)到較為不錯(cuò)的效果。
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-463208.html
討論與展望
這里很重要的一點(diǎn),時(shí)間開(kāi)銷(xiāo)作者這里并沒(méi)有討論。尤其是LLM cascade這塊,如果前兩次調(diào)用失敗,那時(shí)間開(kāi)銷(xiāo)就比較長(zhǎng)了。當(dāng)然還有一些問(wèn)題是LLM商業(yè)化應(yīng)用的共性問(wèn)題,安全,隱私,倫理,不確定性等等。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-463208.html
到了這里,關(guān)于斯坦福2023【FrugalGPT】減少大模型的商業(yè)化應(yīng)用成本的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!