我通常使用 GPT 的方式是,先用 GPT-4 來快速搭建一個(gè)原型,然后不斷優(yōu)化,直到解決方案能夠在 GPT-3.5 模型上運(yùn)行。
這個(gè)方法在我的實(shí)踐中非常高效,它的一個(gè)重要好處是能迅速篩選出那些“行不通”的項(xiàng)目——如果你在幾天內(nèi)都無法使項(xiàng)目在 GPT-4 的基礎(chǔ)上運(yùn)行起來,那么這個(gè)項(xiàng)目可能就不值得進(jìn)一步深入。
實(shí)際上,這就是我在 2023 年全年向合作公司推薦的工作流程。GPT-4 有一些問題,使得將其應(yīng)用于實(shí)際生產(chǎn)環(huán)境并不理想。
我對 GPT-4 的具體擔(dān)憂包括:
- 直到幾個(gè)月前,OpenAI 本身還表示 GPT-4 尚未準(zhǔn)備好投入生產(chǎn)使用。他們的官方建議是將其用于原型設(shè)計(jì)階段。
- 長期以來,GPT-4 的請求速率限制非常嚴(yán)格。以前,它的上限僅為每分鐘 200 個(gè)請求,而現(xiàn)在已經(jīng)提升至每分鐘 10,000 個(gè)。
- GPT-4 一直比 GPT-3.5 慢。我在 6 月對模型進(jìn)行的基準(zhǔn)測試顯示,GPT-4 相比 GPT-3.5 的令牌間延遲高出 3 倍。
- 在歷史上,GPT-4 的成本遠(yuǎn)高于?GPT-3.5。例如,2023 年 3 月,對于一個(gè)平均應(yīng)用來說,GPT-3.5 的成本僅為 GPT-4 的五分之一。
自 2023 年 3 月起,這些因素都發(fā)生了顯著的變化。請求速率限制、性能和定價(jià)都有了大幅提升,主流的 GPT-4 模型現(xiàn)已非常適用于生產(chǎn)環(huán)境——盡管 GPT-4 Turbo 還未達(dá)到這一水平。
GPT 價(jià)格歷史
回顧一下,GPT 模型的成本如何隨時(shí)間變化:
模型 | 每千個(gè)輸入 Token 的價(jià)格 | 每千個(gè)輸出 Token 的價(jià)格 |
---|---|---|
gpt-4-1106-preview |
0.0100 美元 | 0.0300 美元 |
gpt-4-0613 |
0.0300 美元 | 0.0600 美元 |
gpt-4-0314 |
0.0300 美元 | 0.0600 美元 |
gpt-3.5-turbo-1106 |
0.0010 美元 | 0.0020 美元 |
gpt-3.5-turbo-16k-0613 |
0.0030 美元 | 0.0040 美元 |
gpt-3.5-turbo-0613 |
0.0015 美元 | 0.0020 美元 |
gpt-3.5-turbo-0301 |
0.0020 美元 | 0.0020 美元 |
跨不同模型進(jìn)行成本比較需要考慮兩個(gè)維度的定價(jià)因素:你預(yù)計(jì)的 Token 使用總量和輸入輸出 Token 的比例。
第一個(gè)指標(biāo)很直觀:你的 OpenAI 賬單會(huì)隨著使用量的增加而線性上升。而第二個(gè)指標(biāo)則涉及不同應(yīng)用場景下的成本差異。以 11 月的模型為例,GPT-4 Turbo 的輸出 Token 成本是輸入 Token 的三倍,而 GPT-3.5 Turbo 的輸出 Token 則是輸入 Token 的兩倍。
這意味著,對于輸出 Token 使用量大的應(yīng)用來說,GPT-4 Turbo 相較于 GPT-3.5 Turbo 會(huì)更加昂貴。相比之下,輸入 Token 使用較多的應(yīng)用會(huì)發(fā)現(xiàn)成本差異較小。
現(xiàn)實(shí)世界中的輸入與輸出比例
當(dāng) Sam Altman 宣布 GPT-4 Turbo 相較于七月的 GPT-4 模型降價(jià)時(shí),他提到平均 API 用戶的成本將減少約 2.75 倍。根據(jù)這個(gè)數(shù)據(jù)反推,我們可以得出平均輸入與輸出的 Token 比例大約為 9:1。
這個(gè)比例只是一個(gè)大致的平均值。OpenAI 有眾多客戶,他們的工作內(nèi)容各不相同。在規(guī)劃你的業(yè)務(wù)時(shí),依賴這個(gè) 9:1 的比例可能不太可靠,因?yàn)閷?shí)際的比例可能會(huì)有很大的差異。
以 Crimson Education 的產(chǎn)品為例,我觀察到的輸入與輸出比例從 22.5:1 到 2.6:1 不等,這取決于具體功能。我個(gè)人觀察到的最大比例是 22.5:1,但在其他情況下,我也看到過低至 1.47:1 的比例。
在開發(fā)和生產(chǎn)過程中實(shí)際測量和跟蹤輸入與輸出 Token 的比例是極其重要的。因?yàn)楝F(xiàn)實(shí)世界中的比例變化極大,所以很難給出一個(gè)普適的標(biāo)準(zhǔn)比例。
如果我們只考慮成本而忽略模型的性能,那么具有 22.5:1 Token 比例的功能與 GPT-4 Turbo 非常匹配,因?yàn)槲覀兛梢酝ㄟ^這種方式最小化相對較高的輸出 Token 成本。
價(jià)格比較
基于這些考量,這里是 11 月 GPT-4 Turbo 模型(gpt-4-1106-preview
)在不同輸入:輸出比率下相對成本的詳細(xì)分析。表中的“相對價(jià)格”一欄顯示了 GPT-4 Turbo 相對于其他模型的額外成本;例如,在 9:1 輸入:輸出 Token 比率下,使用 GPT-4 Turbo 的綜合成本是使用 11 月 GPT-3.5 Turbo 模型的成本的 10.91 倍。
輸入:輸出比率 | 模型 | 相對價(jià)格 |
---|---|---|
1.47:1 | gpt-3.5-turbo-1106 |
12.88 |
gpt-3.5-turbo-0613 |
10.63 | |
gpt-4-0613 |
0.43 | |
9:1 | gpt-3.5-turbo-1106 |
10.91 |
gpt-3.5-turbo-0613 |
7.74 | |
gpt-4-0613 |
0.36 | |
22.5:1 | gpt-3.5-turbo-1106 |
10.41 |
gpt-3.5-turbo-0613 |
7.13 | |
gpt-4-0613 |
0.35 |
明確地說,7 月 GPT-4 模型的成本是同期 GPT-3.5 模型的 20 倍,但性能僅為三分之一,這對我來說是難以接受的。我并不認(rèn)為它適合投入實(shí)際應(yīng)用,因?yàn)閹缀踉谒袌龊?,只要適當(dāng)?shù)厥褂锰崾荆珿PT-3.5 Turbo 就能夠達(dá)到與 GPT-4 相似的效果。這種在價(jià)格和性能上的巨大差異令人震驚。
但最新的模型變化大大改變了這一判斷。
當(dāng)我們將 GPT-4 Turbo 與 7 月份的模型相比較時(shí),我發(fā)現(xiàn)差距已經(jīng)顯著縮小了。到目前為止,我一直很高興地在這些模型上進(jìn)行工作。在成本上,GPT-4 Turbo 是 7.13 至 10.63 倍于 7 月份的 GPT-3.5 Turbo 模型,但在每個(gè) Token 之間的響應(yīng)時(shí)間上,它僅比 GPT-3.5 Turbo 模型慢 26.2%。
如果你必須在 GPT-4 Turbo 和上一代 GPT-3.5 Turbo 模型中做出選擇,那么 GPT-4 Turbo 無疑是更明智的選擇。在大多數(shù)情況下,除非你需要的輸出可以通過一個(gè)簡單的提示就得到,否則 GPT-4 Turbo 在成本和性能上幾乎總是更勝一籌。
當(dāng)然,我們實(shí)際上并不需要在這兩個(gè)模型之間做出選擇,因?yàn)檫€有新推出的 GPT-3.5 Turbo 模型可以考慮。這個(gè)新模型的成本比 GPT-4 Turbo 高出 10.41 至 12.88 倍,但在性能方面,GPT-4 Turbo 的響應(yīng)時(shí)間大約只有 GPT-3.5 Turbo 的一半。
只考慮當(dāng)前這一代的模型時(shí),選擇就變得不那么明顯了。
案例研究:文檔審查
我們在 Crimson 最近推出了一個(gè)新功能,能夠根據(jù)特定的評分標(biāo)準(zhǔn)來評估輸入的文檔。盡管 GPT-4 Turbo(GPT-4 Turbo)有能力單次提示下完成文檔評分,但從經(jīng)濟(jì)和可擴(kuò)展性角度考慮,我們選擇使用 GPT-3.5 Turbo(GPT-3.5 Turbo)。
文檔審查功能的屏幕截圖。所審查的文檔質(zhì)量高,分?jǐn)?shù)也反映了這一點(diǎn)。
展示我們新的文檔審查功能如何工作
對于這種文檔審查應(yīng)用,繞過較小型號(hào) GPT-3.5 Turbo 的局限性相對容易。我們做法是:評分標(biāo)準(zhǔn)的每個(gè)項(xiàng)目都有各自的評分提示,并且這些提示可以同時(shí)運(yùn)行(并行處理!)。然后,這些單獨(dú)的提示結(jié)果會(huì)被送到最后的提示中,用來生成反饋。
Crimson 使用 GPT-3.5 Turbo 進(jìn)行文檔審查的具體流程。這張圖表展示了如何在各項(xiàng)標(biāo)準(zhǔn)評分并行完成后,匯總并整合這些評分以產(chǎn)生反饋。
因此,我們的“調(diào)用棧 (call stack)”僅有兩個(gè)提示深度。鑒于 GPT-4 Turbo 的處理速度僅為 GPT-3.5 Turbo 的一半,這個(gè)選擇是合理的。但重要的不僅是提示的數(shù)量,更關(guān)鍵的是輸出 Token(Token)的數(shù)量。在大多數(shù)情況下,大語言模型 (LLM) 的響應(yīng)時(shí)間幾乎是線性的,取決于在關(guān)鍵流程中生成的 Token 數(shù)量。
而且很明顯,我們每個(gè)更小、更受限制的提示生成的內(nèi)容要比單個(gè)大型 GPT-4 Turbo 提示的內(nèi)容少。至少在并行處理的每個(gè)評分提示中,我們只需要輸出一個(gè)分?jǐn)?shù),而不是像之前那樣需要順序輸出所有分?jǐn)?shù),這樣可以節(jié)省不少 Token。
在實(shí)際操作中,我們的關(guān)鍵流程輸出的 Token 數(shù)量還可以進(jìn)一步減少。我們采用了思維鏈提示 (chain-of-thought prompting) 來獲得更好的效果,當(dāng)模型一次只需考慮評分標(biāo)準(zhǔn)中的一個(gè)方面時(shí),其“思維”過程可以更加簡潔。
我們通常能在 6 秒左右的時(shí)間內(nèi),使用 GPT-3.5 Turbo 生成一條評價(jià)。而 GPT-4 Turbo 的生成時(shí)間通常在 17 秒左右。但僅僅比較 Token 生成速度的直接基準(zhǔn)測試,并不能完全展現(xiàn)出全部情況:將?gpt-3.5-turbo-1106
?升級到?gpt-4-1106-preview
?時(shí),預(yù)期的性能下降約為 2.12 倍,這只是在一個(gè)相似場景下的測量結(jié)果。
值得一提的是,我們用于 GPT-3.5 Turbo 的架構(gòu)也同樣適用于 GPT-4 Turbo;并非一定要在大模型的單一提示中完成所有任務(wù)。但當(dāng)我們的架構(gòu)在較小模型上運(yùn)行良好時(shí),就沒有必要改變,這通常是長時(shí)間架構(gòu)優(yōu)化后的常態(tài)。
最終,我們不僅節(jié)約了相當(dāng)一部分成本,還顯著提升了用戶體驗(yàn)。六秒的響應(yīng)時(shí)間幾乎即時(shí),對于終端用戶而言并不顯得過于漫長。
至少在我們迄今為止開發(fā)的應(yīng)用中,文檔審查是一個(gè)相對簡單的任務(wù)。你并不真正需要更大模型的高級推理能力,因?yàn)槲覀兿M脩裟軌驇缀鯇?shí)時(shí)地編輯他們的文檔,因此對性能的要求非常嚴(yán)格。
像這種情況下的用例,GPT-3.5 Turbo 仍然非常合適。但在更復(fù)雜的問題上,我不再認(rèn)為避免使用 GPT-4 Turbo 是個(gè)好主意。對于你和你的公司而言,減少提示工程的工作量,承擔(dān) GPT-4 Turbo 較高的成本,以便更頻繁地發(fā)布產(chǎn)品,從經(jīng)濟(jì)角度看是更合理的。
輸入與輸出比率及模型的選擇
我們研究了輸入與輸出 Token 比率在成本分析中的應(yīng)用,發(fā)現(xiàn)它們也是選擇合適模型的重要指標(biāo)。直觀上,輸入與輸出比率高的應(yīng)用更適合長提示(而非簡短的補(bǔ)全),因此 GPT-4 Turbo 特別適用于這類場景。
實(shí)際上,我有一個(gè)具體的標(biāo)準(zhǔn):在使用 GPT-3.5 系列模型時(shí),我從未部署過輸入與輸出比率達(dá)到或超過?17.5:1?的應(yīng)用。所有這類比率的特性都是使用 GPT-4 Turbo 來實(shí)現(xiàn)的。
深入分析這種直覺,我們可以發(fā)現(xiàn)兩個(gè)關(guān)鍵因素:
一次性處理大量數(shù)據(jù)變得簡單。?當(dāng)你處理海量數(shù)據(jù)時(shí)——即擁有大量輸入 Token——使用 GPT-3.5 就意味著你需要進(jìn)行多輪的排序、篩選和總結(jié),來應(yīng)對其較小的上下文限制。
雖然使用 GPT-4 Turbo 時(shí)你可能仍需進(jìn)行這些處理,但它在開發(fā)過程中的便捷性是顯而易見的。
在 GPT-3.5 的環(huán)境中,你必須大量減少數(shù)據(jù)量,然后才能看到最終輸出的示例。而在 GPT-4 的環(huán)境中,你可以立刻得到一個(gè)輸出,然后利用這個(gè)輸出來智能地優(yōu)化你的預(yù)處理流程。
GPT-4 Turbo 在處理“中段忽略”問題上更加高效。?語言模型常常會(huì)忽視提示中間的指令,這個(gè)問題隨著提示長度的增加而加劇。GPT-4 Turbo 雖未能完全解決這一問題,但它在處理更長上下文時(shí)的性能衰減程度較之前有了顯著改善。
Greg Kamradt 的測量表明,在一項(xiàng)簡單的回憶測試中,性能一直表現(xiàn)出色,直到輸入 Token 達(dá)到 73K。這是個(gè)相當(dāng)優(yōu)秀的成果!在這項(xiàng)基準(zhǔn)測試中,你基本上能夠處理相當(dāng)于兩個(gè)完整大小的gpt-4-32k
上下文,然后才會(huì)遇到問題。
簡而言之,如果你的輸入與輸出 Token 的比例非常高,那么你的應(yīng)用場景很可能非常適合使用 GPT-4 Turbo,無論是從成本還是模型性能的角度看都是如此。
結(jié)論
直到現(xiàn)在,我都不太傾向于推薦在實(shí)際應(yīng)用中使用 GPT-4 模型,但技術(shù)的進(jìn)步使得這些模型的應(yīng)用變得更加可行。盡管 GPT-4 Turbo 目前還處于預(yù)覽階段,但它在速率限制方面已經(jīng)取得了重大改進(jìn),我預(yù)計(jì)不久后 OpenAI 將會(huì)宣布它正式適用于生產(chǎn)環(huán)境。
與 2022 年 7 月的 GPT-3.5 Turbo 模型相比,轉(zhuǎn)換到 GPT-4 Turbo 將使成本增加約 7.74 倍,且在相同架構(gòu)下性能降低 50%。
但 GPT-4 模型的真正價(jià)值在于,它們能夠通過更少的提示和更簡潔的架構(gòu)達(dá)到良好的效果。在我的經(jīng)驗(yàn)中,一個(gè) GPT-4 的提示往往能完成 3-4 個(gè) GPT-3.5 提示的工作量??紤]到這一點(diǎn),GPT-4 Turbo 將適合許多應(yīng)用場景的成本效益。
然而,GPT-4 并不是 GPT-3.5 的直接升級。在性能要求嚴(yán)格的應(yīng)用場景中,或者問題足夠簡單,可以為 GPT-3.5 重新設(shè)計(jì)架構(gòu)的情況下,投入資源進(jìn)行提示優(yōu)化仍然是值得的。文章來源:http://www.zghlxwxcb.cn/news/detail-805338.html
?原文:Is GPT-4 cost effective yet?文章來源地址http://www.zghlxwxcb.cn/news/detail-805338.html
到了這里,關(guān)于GPT-4 現(xiàn)在是否已經(jīng)足夠劃算?的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!