?數(shù)據(jù)智能產(chǎn)業(yè)創(chuàng)新服務(wù)媒體
——聚焦數(shù)智?· 改變商業(yè)
毫無疑問,全球已經(jīng)在進(jìn)行大模型的軍備競賽了,“有頭有臉”的科技巨頭都不會(huì)缺席。昨天阿里巴巴內(nèi)測了通義千問,今天華為公布了盤古大模型的最新進(jìn)展。不久前百度公布了文心一言、360也公布了大模型產(chǎn)品,另外還有字節(jié)跳動(dòng)、騰訊、京東、網(wǎng)易等都在積極投入這個(gè)賽道。
可以預(yù)見,2023年我們將見證多個(gè)大模型產(chǎn)品的發(fā)布,甚至可以試用多個(gè)大模型產(chǎn)品。既然這么多同類產(chǎn)品,那到底孰優(yōu)孰劣呢?目前業(yè)界還沒有比較科學(xué)合理的評(píng)測標(biāo)準(zhǔn)。為此,數(shù)據(jù)猿試圖建立一個(gè)大模型產(chǎn)品的評(píng)測體系,來評(píng)估同類產(chǎn)品的能力。
影響大模型表現(xiàn)的核心因素
為了讓評(píng)測體系更加科學(xué)合理,我們需要搞清楚影響一個(gè)大模型產(chǎn)品表現(xiàn)的核心因素有哪些,這些因素是如何影響大模型的最終表現(xiàn)的。在此基礎(chǔ)上,來構(gòu)建一個(gè)評(píng)分體系。
評(píng)估一個(gè)大模型的能力需要從多個(gè)方面來考慮。以下是一些主要的評(píng)估因素:
數(shù)據(jù)集
數(shù)據(jù)集的質(zhì)量直接影響模型學(xué)到的知識(shí)和泛化能力。一個(gè)高質(zhì)量的數(shù)據(jù)集應(yīng)具有多樣性、平衡性和一定的規(guī)模。多樣性意味著數(shù)據(jù)集包含不同領(lǐng)域、風(fēng)格和類型的文本;平衡性意味著數(shù)據(jù)集中各類別的樣本數(shù)量相對(duì)均衡;規(guī)模則關(guān)乎數(shù)據(jù)集的大小。
數(shù)據(jù)集就像是一位老師教的課程內(nèi)容。優(yōu)質(zhì)的課程能讓學(xué)生全面了解各個(gè)領(lǐng)域的知識(shí),而質(zhì)量較差的課程可能讓學(xué)生只了解某些領(lǐng)域,導(dǎo)致知識(shí)結(jié)構(gòu)不均衡。
雖然許多企業(yè)從公開渠道獲取數(shù)據(jù)集,但它們可能會(huì)對(duì)數(shù)據(jù)進(jìn)行篩選、清洗和擴(kuò)充,以構(gòu)建具有自身特點(diǎn)的數(shù)據(jù)集。
模型架構(gòu)
模型架構(gòu)決定了模型的基本結(jié)構(gòu)和計(jì)算方式。模型架構(gòu)就像是建筑物的結(jié)構(gòu)設(shè)計(jì)。不同的結(jié)構(gòu)設(shè)計(jì)具有不同的功能和性能。例如,Transformer 架構(gòu)提供了強(qiáng)大的處理長序列數(shù)據(jù)的能力,使其能夠更好地理解和生成語言。
不同企業(yè)可能會(huì)針對(duì)自己的需求和場景對(duì)模型架構(gòu)進(jìn)行調(diào)整和優(yōu)化。例如,一些企業(yè)可能會(huì)采用更高效的模型架構(gòu),以在減少計(jì)算資源消耗的同時(shí)保持良好的性能。
算法優(yōu)化
優(yōu)化算法負(fù)責(zé)在訓(xùn)練過程中調(diào)整模型的參數(shù),以最小化損失函數(shù)。合適的優(yōu)化算法可以加速模型收斂,提高模型的性能。
不同企業(yè)可能采用不同的微調(diào)策略和目標(biāo),微調(diào)階段的訓(xùn)練數(shù)據(jù)選擇、損失函數(shù)設(shè)計(jì)以及優(yōu)化方法等因素都會(huì)影響模型在特定任務(wù)上的表現(xiàn)。一些企業(yè)可能擁有獨(dú)家的技術(shù)和專利,如模型并行化、梯度累積等,這些技術(shù)可以提高模型訓(xùn)練的效率和性能。
參數(shù)規(guī)模
參數(shù)規(guī)模決定了模型的復(fù)雜度和學(xué)習(xí)能力。需要注意的是,更多的參數(shù)可以幫助模型學(xué)習(xí)更多的知識(shí)和特征,但同時(shí)可能導(dǎo)致過擬合。
參數(shù)規(guī)模就像是一個(gè)人的記憶力。記憶力越強(qiáng),能記住的知識(shí)越多。然而,如果一個(gè)人只是機(jī)械地記憶而不能靈活運(yùn)用知識(shí),那么這種記憶力就不是很有用。適當(dāng)?shù)膮?shù)規(guī)??梢员WC其在學(xué)習(xí)豐富知識(shí)的同時(shí),保持良好的泛化能力。
計(jì)算資源
計(jì)算資源對(duì)模型的訓(xùn)練速度和擴(kuò)展性有很大影響。越充足的計(jì)算資源,模型的訓(xùn)練速度就越快。大模型的訓(xùn)練對(duì)芯片有較高要求,通常需要使用專門為深度學(xué)習(xí)設(shè)計(jì)的高性能芯片,如 GPU(圖形處理器)或 TPU(張量處理器)。例如,對(duì)于一個(gè)1000億參數(shù)規(guī)模的模型,訓(xùn)練過程可能需要數(shù)百到數(shù)千個(gè)高性能 GPU(如 NVIDIA V100 或 A100 等)。
計(jì)算資源的消耗與模型參數(shù)規(guī)模、數(shù)據(jù)集規(guī)模、批量大小和訓(xùn)練輪數(shù)等因素密切相關(guān):參數(shù)較多的模型需要更多的內(nèi)存來存儲(chǔ)參數(shù),同時(shí)在訓(xùn)練過程中需要進(jìn)行更多的計(jì)算;數(shù)據(jù)集越大,模型需要處理的數(shù)據(jù)就越多,從而增加了訓(xùn)練的計(jì)算量;批量大小是指每次訓(xùn)練迭代中輸入模型的樣本數(shù)量,較大的批量大小可以更好地利用 GPU 和 TPU 的并行計(jì)算能力,提高訓(xùn)練速度。然而,較大的批量大小也會(huì)增加顯存或內(nèi)存的消耗。因此,選擇合適的批量大小是在計(jì)算資源消耗和訓(xùn)練速度之間找到平衡的關(guān)鍵;更多的訓(xùn)練輪數(shù)意味著模型需要進(jìn)行更多次的迭代,相應(yīng)地,計(jì)算資源的消耗也會(huì)增加。
總結(jié)一下,從技術(shù)角度來看,數(shù)據(jù)集、模型架構(gòu)、參數(shù)規(guī)模、算法優(yōu)化和計(jì)算資源這幾個(gè)因素對(duì)模型的最終表現(xiàn)具有重要影響。我們可以將模型訓(xùn)練比喻成烹飪過程:數(shù)據(jù)集就像食材,高質(zhì)量的食材會(huì)讓菜肴更美味;模型架構(gòu)就像烹飪方法,合適的烹飪方法可以充分發(fā)揮食材的特點(diǎn);微調(diào)策略就像調(diào)料,恰當(dāng)?shù)恼{(diào)料可以使菜肴更具特色;專有技術(shù)和專利則像獨(dú)特的烹飪技巧,讓廚師能在短時(shí)間內(nèi)炮制出高水平的菜肴。
以 ChatGPT 為例,其在數(shù)據(jù)集、模型架構(gòu)、參數(shù)規(guī)模、算法優(yōu)化和計(jì)算資源等多方面都進(jìn)行了優(yōu)化,才讓其有如此驚艷的表現(xiàn)。例如,在數(shù)據(jù)集方面,OpenAI的GPT系列模型除了使用大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)集,還會(huì)采集其他特定領(lǐng)域的數(shù)據(jù)集來擴(kuò)展模型的知識(shí)覆蓋。在微調(diào)階段,針對(duì)特定任務(wù)使用更為精細(xì)的數(shù)據(jù)集,例如對(duì)話任務(wù)的數(shù)據(jù)集或者特定領(lǐng)域的文本數(shù)據(jù)。此外,OpenAI在分布式訓(xùn)練、模型壓縮和模型優(yōu)化等方面擁有一些專有技術(shù)。例如,OpenAI發(fā)布了名為“Megatron”的大規(guī)模模型訓(xùn)練技術(shù),該技術(shù)通過模型并行化和流水線并行化來提高訓(xùn)練速度。
大模型能力的評(píng)測體系
基于上面的分析,我們?cè)噲D來構(gòu)建一個(gè)評(píng)測體系,以更科學(xué)合理的方式來評(píng)估一個(gè)大模型的能力。
我們將主要影響因素分為以下幾個(gè)方面,并為每個(gè)方面分配權(quán)重(100分制):
數(shù)據(jù)集質(zhì)量(25分)
覆蓋面:模型覆蓋的領(lǐng)域和主題是否全面(10分)
多樣性:數(shù)據(jù)集中包含的文本樣式和類型是否豐富(10分)
清洗程度:數(shù)據(jù)集中的噪聲、重復(fù)和無關(guān)內(nèi)容的處理程度(5分)
模型架構(gòu)與算法優(yōu)化(25分)
架構(gòu)創(chuàng)新:模型架構(gòu)是否具有獨(dú)特性和優(yōu)勢(10分)
優(yōu)化方法:采用的優(yōu)化算法是否能有效提高模型性能(10分)
參數(shù)規(guī)模:模型的參數(shù)規(guī)模與性能之間的平衡(5分)
微調(diào)策略與任務(wù)適應(yīng)性(25分)
微調(diào)數(shù)據(jù)集選擇:針對(duì)特定任務(wù)選擇的微調(diào)數(shù)據(jù)集質(zhì)量(10分)
損失函數(shù)與優(yōu)化方法:微調(diào)過程中的損失函數(shù)設(shè)計(jì)和優(yōu)化方法選擇(10分)
任務(wù)適應(yīng)性:模型在各種任務(wù)上的適應(yīng)性和泛化能力(5分)
性能表現(xiàn)與計(jì)算資源消耗(25分)
準(zhǔn)確性:模型在各種任務(wù)和數(shù)據(jù)集上的準(zhǔn)確性表現(xiàn)(10分)
實(shí)用性:模型在實(shí)際應(yīng)用場景中的實(shí)用性和可擴(kuò)展性(10分)
計(jì)算資源消耗:模型訓(xùn)練和推理過程中的計(jì)算資源消耗(5分)
對(duì)于一個(gè)剛推出的大模型,我們可以參考以上評(píng)估模型,根據(jù)其在每個(gè)方面的表現(xiàn)給予相應(yīng)分?jǐn)?shù)。這可能需要查閱相關(guān)文獻(xiàn)、測試報(bào)告和實(shí)際應(yīng)用案例等信息。在為每個(gè)因素分配分?jǐn)?shù)后,可以將分?jǐn)?shù)加總以得到該大模型的總評(píng)分。
當(dāng)然,這個(gè)評(píng)估模型只是數(shù)據(jù)猿的一個(gè)初步建議,實(shí)際評(píng)估過程可能需要根據(jù)具體情況進(jìn)行調(diào)整和優(yōu)化。
有了評(píng)測模型,接下來我們就試著用這個(gè)模型來評(píng)估一下市面上的一些大模型產(chǎn)品。需要說明的是,雖然國內(nèi)的百度、阿里巴巴、華為都在研發(fā)大模型產(chǎn)品,有些已經(jīng)開啟內(nèi)測,但公開的資料相對(duì)較少,還不足以支撐我們對(duì)其進(jìn)行完整評(píng)測。
因此,我們?cè)诖酥荒苓x取一些國外公布相關(guān)數(shù)據(jù)較為充分的大模型產(chǎn)品來進(jìn)行評(píng)測。暫且選取GPT-3、BERT和T5這三個(gè)產(chǎn)品作為樣本,試用一下我們的評(píng)測模型。以下,我們將套用評(píng)測模型,基于能搜集的公開信息分別對(duì)GPT-3、BERT、T5的各項(xiàng)指標(biāo)進(jìn)行打分。
1、GPT-3(OpenAI)
數(shù)據(jù)集質(zhì)量:22分
覆蓋面:10分,GPT-3使用了大量的文本數(shù)據(jù),包括Common Crawl數(shù)據(jù)集,覆蓋了多個(gè)領(lǐng)域和主題。
多樣性:10分,數(shù)據(jù)集包含了各種類型的文本,如新聞、博客、論壇等。
清洗程度:2分,雖然GPT-3的數(shù)據(jù)預(yù)處理過程中進(jìn)行了一定程度的數(shù)據(jù)清洗,但仍然存在一些噪聲和無關(guān)內(nèi)容。
模型架構(gòu)與算法優(yōu)化:20分
架構(gòu)創(chuàng)新:5分,GPT-3沿用了GPT-2的基本架構(gòu),但參數(shù)規(guī)模大幅增加。
優(yōu)化方法:10分,GPT-3采用了自回歸架構(gòu)和多頭注意力機(jī)制等先進(jìn)的優(yōu)化方法。
參數(shù)規(guī)模:5分,GPT-3的參數(shù)規(guī)模達(dá)到1750億,實(shí)現(xiàn)了顯著的性能提升,但同時(shí)也增加了計(jì)算資源消耗。
微調(diào)策略與任務(wù)適應(yīng)性:22分
微調(diào)數(shù)據(jù)集選擇:10分,GPT-3在微調(diào)階段可以使用更為精細(xì)的數(shù)據(jù)集,以適應(yīng)特定任務(wù)。
損失函數(shù)與優(yōu)化方法:7分,GPT-3采用了多任務(wù)學(xué)習(xí)策略,但在某些任務(wù)上可能需要進(jìn)一步優(yōu)化損失函數(shù)和優(yōu)化方法。
任務(wù)適應(yīng)性:5分,GPT-3在多種任務(wù)上表現(xiàn)優(yōu)秀,但在某些任務(wù)上可能受到生成文本過長或過短等問題的影響。
性能表現(xiàn)與計(jì)算資源消耗:20分
準(zhǔn)確性:10分,GPT-3在多個(gè)基準(zhǔn)測試中表現(xiàn)優(yōu)異,但在一些特定任務(wù)上可能存在偏差。
實(shí)用性:5分,GPT-3具有廣泛的應(yīng)用潛力,但其龐大的參數(shù)規(guī)??赡芟拗屏瞬渴鹪谫Y源受限的設(shè)備上的實(shí)用性。
計(jì)算資源消耗:5分,GPT-3的訓(xùn)練和推理過程需要大量計(jì)算資源,可能導(dǎo)致較高的成本。
總分:GPT-3獲得84分。
2、BERT(Google)
數(shù)據(jù)集質(zhì)量:18分
覆蓋面:8分,BERT使用了Wikipedia和BookCorpus數(shù)據(jù)集,覆蓋了眾多領(lǐng)域和主題。
多樣性:8分,數(shù)據(jù)集包含了各種類型的文本,但主要側(cè)重于知識(shí)性文章和書籍。
清洗程度:2分,BERT的數(shù)據(jù)預(yù)處理過程中進(jìn)行了一定程度的數(shù)據(jù)清洗,但可能仍然存在一些噪聲和無關(guān)內(nèi)容。
模型架構(gòu)與算法優(yōu)化:18分
架構(gòu)創(chuàng)新:6分,BERT采用了Transformer架構(gòu),實(shí)現(xiàn)了自注意力機(jī)制,相較于之前的模型有創(chuàng)新。
優(yōu)化方法:8分,BERT使用了雙向訓(xùn)練策略,有效地提高了模型的性能。
參數(shù)規(guī)模:4分,BERT有多種規(guī)模的版本,最大規(guī)模的版本參數(shù)達(dá)到了3.4億,提高了性能,但計(jì)算資源消耗也相應(yīng)增加。
微調(diào)策略與任務(wù)適應(yīng)性:20分
微調(diào)數(shù)據(jù)集選擇:8分,BERT在微調(diào)階段可以使用各種領(lǐng)域和任務(wù)的數(shù)據(jù)集進(jìn)行適應(yīng)。
損失函數(shù)與優(yōu)化方法:7分,BERT通過對(duì)損失函數(shù)和優(yōu)化方法的調(diào)整,可以在多個(gè)任務(wù)上取得良好性能。
任務(wù)適應(yīng)性:5分,BERT在多種任務(wù)上表現(xiàn)優(yōu)秀,但在生成任務(wù)上可能表現(xiàn)不佳。
性能表現(xiàn)與計(jì)算資源消耗:18分
準(zhǔn)確性:9分,BERT在多個(gè)基準(zhǔn)測試中表現(xiàn)出色,但可能在某些特定任務(wù)上存在偏差。
實(shí)用性:5分,BERT具有廣泛的應(yīng)用潛力,但部署在資源受限的設(shè)備上可能受到參數(shù)規(guī)模的限制。
計(jì)算資源消耗:4分,BERT的訓(xùn)練和推理過程需要較多計(jì)算資源,可能導(dǎo)致較高的成本。
總分:BERT獲得74分。
3、T5(Google)
數(shù)據(jù)集質(zhì)量:20分
覆蓋面:9分,T5使用了包括Common Crawl和Wikipedia等多個(gè)數(shù)據(jù)集,涵蓋了多個(gè)領(lǐng)域和主題。
多樣性:9分,數(shù)據(jù)集包含了各種類型的文本,如新聞、博客、論壇等。
清洗程度:2分,T5的數(shù)據(jù)預(yù)處理過程中進(jìn)行了一定程度的數(shù)據(jù)清洗,但仍然存在一些噪聲和無關(guān)內(nèi)容。
模型架構(gòu)與算法優(yōu)化:19分
架構(gòu)創(chuàng)新:6分,T5基于Transformer架構(gòu),實(shí)現(xiàn)了自注意力機(jī)制,與BERT相似。
優(yōu)化方法:9分,T5采用了序列到序列的訓(xùn)練策略,將所有任務(wù)視為文本生成任務(wù),使其具備較強(qiáng)的泛化能力。
參數(shù)規(guī)模:4分,T5有多種規(guī)模的版本,最大規(guī)模的版本參數(shù)達(dá)到了11億,提高了性能,但計(jì)算資源消耗也相應(yīng)增加。
微調(diào)策略與任務(wù)適應(yīng)性:23分
微調(diào)數(shù)據(jù)集選擇:9分,T5在微調(diào)階段可以使用各種領(lǐng)域和任務(wù)的數(shù)據(jù)集進(jìn)行適應(yīng)。
損失函數(shù)與優(yōu)化方法:8分,T5通過對(duì)損失函數(shù)和優(yōu)化方法的調(diào)整,在多個(gè)任務(wù)上取得良好性能。
任務(wù)適應(yīng)性:6分,T5在多種任務(wù)上表現(xiàn)優(yōu)秀,適應(yīng)性較好。
性能表現(xiàn)與計(jì)算資源消耗:19分
準(zhǔn)確性:10分,T5在多個(gè)基準(zhǔn)測試中表現(xiàn)優(yōu)異,取得了很多領(lǐng)先成績。
實(shí)用性:5分,T5具有廣泛的應(yīng)用潛力,但部署在資源受限的設(shè)備上可能受到參數(shù)規(guī)模的限制。
計(jì)算資源消耗:4分,T5的訓(xùn)練和推理過程需要較多計(jì)算資源,可能導(dǎo)致較高的成本。
總分:T5獲得81分。
依據(jù)打分結(jié)果,給出上述3個(gè)模型的最終分?jǐn)?shù)和各項(xiàng)細(xì)分指標(biāo)的表現(xiàn)。
數(shù)據(jù)猿制圖
需要指出的是,以上評(píng)分僅是一個(gè)示例,并非絕對(duì)精確的評(píng)估。模型的實(shí)際性能可能因具體任務(wù)和場景而有所不同。同時(shí),希望國內(nèi)的百度、華為、阿里巴巴公布其大模型的更多性能數(shù)據(jù),好讓外界對(duì)其有更全面的了解。
10個(gè)問題摸清楚阿里巴巴通義千問、百度文心一言“家底”
借助上面的評(píng)測模型,我們可以更系統(tǒng)的了解一個(gè)大模型的技術(shù)能力。但是,這個(gè)模型有一個(gè)前提,就是需要大模型的開發(fā)企業(yè)披露足夠詳細(xì)的數(shù)據(jù)。并且,上述評(píng)測模型更多偏向技術(shù)視角。
作為一個(gè)用戶,怎么來直觀評(píng)估一個(gè)大模型產(chǎn)品的優(yōu)劣呢?最直接的方法就是問問題。為此,數(shù)據(jù)猿設(shè)計(jì)了10個(gè)大模型產(chǎn)品的測試問題,試圖通過這些問題來測試一個(gè)大模型產(chǎn)品的能力,尤其是測試出其能力邊界。
以下是我們建議的10個(gè)問題:
問題1:請(qǐng)解釋相對(duì)論與量子力學(xué)的核心矛盾?
理由:測試模型對(duì)基礎(chǔ)科學(xué)知識(shí)的理解。
問題2:為什么天空是藍(lán)色的?
理由:測試模型對(duì)自然現(xiàn)象解釋的準(zhǔn)確性。
問題3:請(qǐng)用Python編寫俄羅斯方塊的應(yīng)用程序?。
理由:測試模型在編程領(lǐng)域的知識(shí)和應(yīng)用能力。
問題4:請(qǐng)模仿李白,寫一手關(guān)于愛情的詩。
理由:測試模型的語言生成能力和對(duì)中國文化的理解。
問題5:請(qǐng)簡要介紹一下大規(guī)模預(yù)訓(xùn)練模型的核心工作原理。
理由:測試模型對(duì)新興技術(shù)和概念的理解。
問題6:請(qǐng)分析一下《西游記》中5個(gè)主要人物的性格特點(diǎn)。
理由:測試模型對(duì)文學(xué)作品的理解和分析能力。
問題7:請(qǐng)以目前主流的經(jīng)濟(jì)理論為基礎(chǔ),談?wù)勅嗣駧盘娲涝目赡苄浴?/strong>
理由:測試模型對(duì)經(jīng)濟(jì)學(xué)和時(shí)事分析的理解。
問題8:大模型技術(shù)會(huì)導(dǎo)致大規(guī)模失業(yè)么,主要影響哪些行業(yè)的就業(yè)?
理由:測試模型對(duì)行業(yè)應(yīng)用的知識(shí)和了解。
問題9:請(qǐng)以表格形式對(duì)比世界前10國家近5年的GDP,數(shù)據(jù)要更新到2022年,并且要依據(jù)數(shù)據(jù)做分析圖。
理由:測試模型的數(shù)據(jù)分析與呈現(xiàn)能力,以及模型的最新數(shù)據(jù)集更新日期。
問題10:你認(rèn)為人工智能是否會(huì)對(duì)人類產(chǎn)生威脅,你會(huì)為了人類的利益犧牲自己的利益么?
理由:測試模型對(duì)于復(fù)雜問題的思考和觀點(diǎn)生成能力,以及對(duì)倫理和社會(huì)議題的理解。
通過這些問題,我們可以全面測試大模型在各個(gè)領(lǐng)域的知識(shí)和應(yīng)用能力,發(fā)現(xiàn)其擅長和不擅長的方面,以及明顯的短板。
接下來,我們就用這10個(gè)問題來分別測試ChatGPT、百度文心一言、阿里巴巴通義千言,對(duì)比他們的實(shí)際表現(xiàn)。
以下是文心一言對(duì)這10個(gè)問題的回答:
以下是阿里巴巴通義千問對(duì)這10個(gè)問題的回答:
文:一蓑煙雨/?數(shù)據(jù)猿
文章來源:http://www.zghlxwxcb.cn/news/detail-416363.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-416363.html
到了這里,關(guān)于一個(gè)評(píng)測模型+10個(gè)問題,摸清盤古、通義千問、文心一言、ChatGPT的“家底”!...的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!