通義千問?:?
https://tongyi.aliyun.com/通義千問https://tongyi.aliyun.com/
目錄
通義千問?:?
達(dá)摩院 GPT-30B 模型復(fù)現(xiàn)
GPT-3 模型介紹
GPT3中文30B參數(shù)量文本生成模型
模型描述
期望模型使用方式以及適用范圍
如何使用
模型局限性以及可能的偏差
訓(xùn)練數(shù)據(jù)介紹
模型訓(xùn)練流程
預(yù)處理
訓(xùn)練
推理加速
數(shù)據(jù)評(píng)估及結(jié)果
?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-484786.html
還沒有親測(cè)“千問”,等后面補(bǔ)上。
這里,先看看達(dá)摩院之前做的 GPT 模型效果吧。
達(dá)摩院 GPT-30B 模型復(fù)現(xiàn)
GPT3論文:Language Models are Few-Shot Learner :?https://arxiv.org/abs/2005.14165
?文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-484786.html
GPT-3 模型介紹
最近的工作通過對(duì)大量文本的預(yù)培訓(xùn),然后對(duì)特定任務(wù)進(jìn)行微調(diào),在許多NLP任務(wù)和基準(zhǔn)方面取得了巨大進(jìn)展。雖然通常在架構(gòu)中與任務(wù)無(wú)關(guān),但這種方法仍然需要數(shù)千或數(shù)萬(wàn)個(gè)示例的特定任務(wù)微調(diào)數(shù)據(jù)集。相比之下,人類通常只能從幾個(gè)示例或簡(jiǎn)單的指令中執(zhí)行新的語(yǔ)言任務(wù)——這是當(dāng)前NLP系統(tǒng)仍然在很大程度上難以做到的。
Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generally perform a new language task from only a few examples or from simple instructions – something which current NLP systems still largely struggle to do.
在這里,我們表明,擴(kuò)展語(yǔ)言模型極大地提高了與任務(wù)無(wú)關(guān)、少發(fā)的性能,有時(shí)甚至通過之前最先進(jìn)的微調(diào)方法達(dá)到競(jìng)爭(zhēng)力。具體來(lái)說(shuō),我們訓(xùn)練GPT-3,這是一個(gè)具有1,750億參數(shù)的自回歸語(yǔ)言模型,比之前任何非稀疏語(yǔ)言模型多10倍,并在短鏡頭設(shè)置中測(cè)試其性能。對(duì)于所有任務(wù),GPT-3的應(yīng)用沒有任何梯度更新或微調(diào),任務(wù)和少鏡頭演示純粹通過與模型的文本交互來(lái)指定。GPT-3在許多NLP數(shù)據(jù)集上實(shí)現(xiàn)了出色的性能,包括翻譯、問答和完空任務(wù),以及一些需要實(shí)時(shí)推理或領(lǐng)域適應(yīng)的任務(wù),例如解詞、在句子中使用新單詞或執(zhí)行3位數(shù)算術(shù)。與此同時(shí),我們還確定了一些GPT-3的少量學(xué)習(xí)仍在掙扎的數(shù)據(jù)集,以及一些GPT-3面臨與大型網(wǎng)絡(luò)語(yǔ)料庫(kù)訓(xùn)練相關(guān)的方法問題的數(shù)據(jù)集。最后,我們發(fā)現(xiàn)GPT-3可以生成人類評(píng)估者難以與人類撰寫的文章區(qū)分開來(lái)的新聞文章樣本。我們討論了這一發(fā)現(xiàn)和一般GPT-3的更廣泛的社會(huì)影響。?
?
Here we show that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine- tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks, as well as several tasks that require on-the-fly reasoning or domain adaptation, such as unscrambling words, using a novel word in a sentence, or performing 3-digit arithmetic. At the same time, we also identify some datasets where GPT-3’s few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora. Finally, we find that GPT-3 can generate samples of news articles which human evaluators have difficulty distinguishing from articles written by humans. We discuss broader societal impacts of this finding and of GPT-3 in general.
?
首先,從實(shí)際角度來(lái)看,每個(gè)新任務(wù)都需要大量帶標(biāo)簽的示例數(shù)據(jù)集,這限制了語(yǔ)言模型的適用性。存在非常廣泛的可能有用的語(yǔ)言任務(wù),包括從糾正語(yǔ)法,到生成抽象概念的示例,再到批評(píng)短篇小說(shuō)。對(duì)于其中許多任務(wù),很難收集大型監(jiān)督訓(xùn)練數(shù)據(jù)集,特別是當(dāng)每個(gè)新任務(wù)都必須重復(fù)該過程時(shí)。
First, from a practical perspective, the need for a large dataset of labeled examples for every new task limits the applicability of language models. There exists a very wide range of possible useful language tasks, encompassing anything from correcting grammar, to generating examples of an abstract concept, to critiquing a short story. For many of these tasks it is difficult to collect a large supervised training dataset, especially when the process must be repeated for every new task.
其次,隨著模型的表現(xiàn)力和訓(xùn)練分布的狹窄,在訓(xùn)練數(shù)據(jù)中利用虛假相關(guān)性的可能性從根本上增加。這可能會(huì)給預(yù)訓(xùn)練加微調(diào)范式帶來(lái)問題,其中模型被設(shè)計(jì)為大型,以便在預(yù)訓(xùn)練期間吸收信息,然后在非常狹窄的任務(wù)分布上進(jìn)行微調(diào)。例如,[HLW+20]觀察到,較大的模型不一定能更好地推廣分布外。有證據(jù)表明,在此范式下實(shí)現(xiàn)的推廣可能很差,因?yàn)樵撃P瓦^于特定于訓(xùn)練分布,并且在它之外沒有很好地推廣[YdC+19,MPL19]。因此,在特定基準(zhǔn)上微調(diào)模型的性能,即使名義上處于人類水平,也可能夸大基礎(chǔ)任務(wù)的實(shí)際性能[GSL+18,NK19]。
第三,人類不需要大型監(jiān)督數(shù)據(jù)集來(lái)學(xué)習(xí)大多數(shù)語(yǔ)言任務(wù)——自然語(yǔ)言的簡(jiǎn)短指令(例如“請(qǐng)告訴我這句話是否描述了快樂或悲傷的東西”)或最多少量的演示(例如“這里有兩個(gè)人們表現(xiàn)得勇敢的例子;請(qǐng)舉出第三個(gè)勇敢的例子”)……
?解決這些問題的一個(gè)潛在途徑是元學(xué)習(xí)1——在語(yǔ)言模型的背景下,這意味著模型在訓(xùn)練時(shí)發(fā)展了廣泛的技能和模式識(shí)別能力,然后在推理時(shí)使用這些能力來(lái)快速適應(yīng)或識(shí)別所需的任務(wù)(如圖1.1所示)。最近的工作[RWC+19]試圖通過我們所謂的“上下文學(xué)習(xí)”來(lái)做到這一點(diǎn),使用預(yù)訓(xùn)練語(yǔ)言模型的文本輸入作為任務(wù)規(guī)范的形式:該模型以自然語(yǔ)言指令和/或任務(wù)的一些演示為條件,然后只需預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么,即可完成任務(wù)的進(jìn)一步實(shí)例。
?
在本文中,我們通過訓(xùn)練一個(gè)1750億個(gè)參數(shù)自回歸語(yǔ)言模型(我們稱之為GPT-3)并測(cè)量其上下文學(xué)習(xí)能力來(lái)測(cè)試這一假設(shè)。具體來(lái)說(shuō),我們?cè)诙鄠€(gè)NLP數(shù)據(jù)集上評(píng)估了GPT-3,以及幾項(xiàng)旨在測(cè)試快速適應(yīng)不太可能直接包含在培訓(xùn)集中的任務(wù)的新穎任務(wù)。
對(duì)于每個(gè)任務(wù),我們?cè)?個(gè)條件下評(píng)估GPT-3:
(a)Few shot? “少發(fā)學(xué)習(xí)”,或上下文學(xué)習(xí),我們?cè)试S盡可能多的演示,以適應(yīng)模型的上下文窗口(通常為10到100),
(b)One shot “一次性學(xué)習(xí)”,我們只允許一次演示,以及
(c)Zero Shot “零發(fā)”學(xué)習(xí),不允許演示,只給模型自然語(yǔ)言的指令。GPT-3原則上也可以在傳統(tǒng)的微調(diào)設(shè)置中進(jìn)行評(píng)估,但我們把這留給未來(lái)的工作。
?
微調(diào)(FT)是近年來(lái)最常見的方法,涉及通過對(duì)特定于所需任務(wù)的監(jiān)督數(shù)據(jù)集進(jìn)行培訓(xùn)來(lái)更新預(yù)訓(xùn)練模型的權(quán)重。通常使用數(shù)千到數(shù)十萬(wàn)個(gè)帶標(biāo)簽的示例。微調(diào)的主要優(yōu)點(diǎn)是在許多基準(zhǔn)上表現(xiàn)強(qiáng)勁。主要缺點(diǎn)是每項(xiàng)任務(wù)都需要一個(gè)新的大型數(shù)據(jù)集,分布外推廣不善的可能性[MPL19],以及利用訓(xùn)練數(shù)據(jù)[GSL+18,NK19]的虛假特征的可能性,可能導(dǎo)致與人類性能的不公平比較。在這項(xiàng)工作中,我們不微調(diào)GPT-3,因?yàn)槲覀兊闹攸c(diǎn)是與任務(wù)無(wú)關(guān)的性能,但GPT-3原則上可以微調(diào),這是未來(lái)工作的一個(gè)有希望的方向。
?
Few-Shot(FS)是我們?cè)谶@項(xiàng)工作中使用的術(shù)語(yǔ),指的是在推理時(shí)對(duì)模型進(jìn)行一些任務(wù)演示的設(shè)置,作為條件[RWC+19],但不允許進(jìn)行權(quán)重更新。如圖2.1所示,對(duì)于一個(gè)典型的數(shù)據(jù)集,一個(gè)示例有一個(gè)上下文和一個(gè)所需的完成(例如英語(yǔ)句子和法語(yǔ)翻譯),通過給出K個(gè)上下文和完成示例,然后是最后一個(gè)上下文示例,模型預(yù)計(jì)將提供完成。我們通常將K設(shè)置為10到100,因?yàn)檫@是模型的上下文窗口中可以容納多少個(gè)示例(nctx = 2048)。少鏡頭的主要優(yōu)點(diǎn)是大大減少了對(duì)特定任務(wù)數(shù)據(jù)的需求,并降低了從大而狹窄的微調(diào)數(shù)據(jù)集中學(xué)習(xí)過于狹窄分布的潛力。主要缺點(diǎn)是,到目前為止,這種方法的結(jié)果比最先進(jìn)的微調(diào)模型差得多。此外,仍然需要少量特定于任務(wù)的數(shù)據(jù)。如名稱所示,此處為語(yǔ)言模型描述的少發(fā)學(xué)習(xí)與ML[HYC01,VBL+16]中其他上下文中使用的少發(fā)學(xué)習(xí)有關(guān)——兩者都涉及基于任務(wù)廣泛分布的學(xué)習(xí)(在這種情況下,隱含在訓(xùn)練前數(shù)據(jù)中),然后快速適應(yīng)新任務(wù)。
如圖1所示,除了任務(wù)的自然語(yǔ)言描述外,除了只允許一次演示外,One-Shot(1S)與少數(shù)鏡頭相同。區(qū)分單發(fā)和單發(fā)和零發(fā)(下圖)的原因是,它與一些任務(wù)傳達(dá)給人類的方式最接近。例如,當(dāng)要求人類在人類工人服務(wù)上生成數(shù)據(jù)集(例如Mechanical Turk)時(shí),通常會(huì)對(duì)任務(wù)進(jìn)行一次演示。相比之下,如果沒有給出示例,有時(shí)很難傳達(dá)任務(wù)的內(nèi)容或格式。
?
?
ModelScope 魔搭社區(qū)
GPT3中文30B參數(shù)量文本生成模型
GPT-3模型是一個(gè)通用的預(yù)訓(xùn)練生成模型,使用Transformer的Decoder-only結(jié)構(gòu),可以用于解決下游各種類型的生成任務(wù),特別是zero-shot生成能力。模型利用大量無(wú)監(jiān)督數(shù)據(jù),通過自回歸任務(wù)進(jìn)行預(yù)訓(xùn)練??梢杂糜诮鉀Q文本生成相關(guān)的任務(wù)包含:文本摘要、問題生成、data-to-text等。
Demo體驗(yàn),請(qǐng)點(diǎn)擊右側(cè)進(jìn)入AI寫手創(chuàng)空間!!!
模型描述
GPT-3模型使用Transformer的 Decoder結(jié)構(gòu),并對(duì)Transformer Decoder進(jìn)行了一些改動(dòng),原本的Decoder包含了兩個(gè) Multi-Head Attention 結(jié)構(gòu),GPT-3只保留了 Mask Multi-Head Attention,利用常規(guī)的語(yǔ)言建模優(yōu)化,從左到右的自回歸預(yù)訓(xùn)練。本模型是基于GPT-3的代碼結(jié)合大量中文無(wú)監(jiān)督數(shù)據(jù)和下游任務(wù)數(shù)據(jù)預(yù)訓(xùn)練得到,我們訓(xùn)練了多種不同參數(shù)的模型,此處展示的是GPT-3 300億參數(shù)模型。GPT-3模型介紹,詳見:Language Models are Few-Shot Learners
本項(xiàng)目我們復(fù)現(xiàn)了一系列不同規(guī)模的中文GPT3模型,包括base/large/1.3B/2.7B/13B/30B/175B等,本模型是其中30B的版本。全部版本如下表所示:
Model | Layers | Heads | d_model | LR | Batch |
---|---|---|---|---|---|
base | 12 | 12 | 768 | 6.0e-4 | 0.5M |
large | 24 | 16 | 1024 | 3.0e-4 | 0.5M |
1.3B | 24 | 32 | 2048 | 2.0e-4 | 2M |
2.7B | 32 | 32 | 2560 | 1.6e-4 | 2M |
13B | 40 | 40 | 5120 | 1.0e-4 | 6M |
30B | 48 | 56 | 7168 | 1.0e-4 | 6M |
175B(work in process) | 96 | 96 | 12288 | 1.2e-4 | 6M |
期望模型使用方式以及適用范圍
本模型可直接用于文本生成,也可以通過finetune用于各類文本理解的任務(wù)。用戶可以自行嘗試各種輸入文檔。具體調(diào)用方式請(qǐng)參考代碼示例。
如何使用
因模型規(guī)模太大,暫不支持下載,可以先使用右側(cè)demo進(jìn)行測(cè)試體驗(yàn)
模型局限性以及可能的偏差
模型訓(xùn)練數(shù)據(jù)來(lái)源于網(wǎng)絡(luò),生成結(jié)果可能存在一定偏差。
訓(xùn)練數(shù)據(jù)介紹
訓(xùn)練數(shù)據(jù)包括中文維基百科、網(wǎng)絡(luò)上公開文本數(shù)據(jù)。
模型訓(xùn)練流程
本模型的訓(xùn)練分為兩個(gè)階段。第一階段嚴(yán)格按照原始GPT3的參數(shù)設(shè)置進(jìn)行:在中文wiki/ Common crawl等無(wú)監(jiān)督數(shù)據(jù)上,通過自回歸的訓(xùn)練任務(wù)訓(xùn)練了約300B字得到。第二階段中,我們加入了多種有監(jiān)督數(shù)據(jù)繼續(xù)訓(xùn)練,使得模型具備多種任務(wù)的zero-shot的處理能力。
預(yù)處理
暫無(wú)
訓(xùn)練
暫無(wú)
推理加速
我們對(duì)大規(guī)模生成模型的推理速度進(jìn)行了極致優(yōu)化,30B模型128字的文本生成可以在1.8秒左右完成。
數(shù)據(jù)評(píng)估及結(jié)果
您可以在本頁(yè)面右側(cè)的在線測(cè)試中體驗(yàn)本模型的生成效果。輸入測(cè)試文本,點(diǎn)擊執(zhí)行測(cè)試。其中,有兩個(gè)可配置的參數(shù):
- max_length: 最大長(zhǎng)度設(shè)置,包含了輸入和輸出加起來(lái)的總最大長(zhǎng)度
- top_k: sampling decode生成的配置參數(shù),用于確定當(dāng)前生成從詞表概率分布的top_k進(jìn)行采樣,該值設(shè)置的越大,模型生成的多樣性越豐富,但同時(shí)相關(guān)性和準(zhǔn)確性會(huì)有所下降
模型可以應(yīng)用于作文生成,代碼生成,小說(shuō)續(xù)寫,詩(shī)詞生成等,以下展示了幾個(gè)模型結(jié)果的示例:
- 作文生成
輸入:以《我的家鄉(xiāng)杭州》為題寫一篇作文
輸出:我的家鄉(xiāng)杭州,有一個(gè)美麗的名字——天堂。
杭州有許多美麗景點(diǎn),比如雷鋒夕照。雷鋒夕照在哪?在市民廣場(chǎng),那里樹木郁郁蔥蔥,鮮花五彩繽紛、爭(zhēng)奇斗艷,是一個(gè)美麗的大花壇。每當(dāng)夕陽(yáng)西下,人們都會(huì)聚集在這里,拍照留念。還有美麗的斷橋。在西湖的北面,有一座橋,叫斷橋,斷橋上有一座很長(zhǎng)很長(zhǎng)的斷橋,人們都喜歡來(lái)這里拍照,感受那美麗的景色。
杭州還有許多風(fēng)味小吃。比如西湖醋魚,外婆家的招牌小吃,是杭州的特色名菜。還有杭州的小籠包和牛肉面,味道都很美味。 杭州還有很多著名的特產(chǎn),比如西湖龍井茶葉、西湖藕粉、西湖莼菜湯......都是杭州的特產(chǎn),很好吃。
杭州的風(fēng)景美麗,物產(chǎn)豐富。我喜歡我的家鄉(xiāng),歡迎大家來(lái)杭州玩。
- 代碼生成
輸入:寫一個(gè)python的快排代碼
輸出:
class Solution:
def quicksort(self, nums: List[int], left: int, right: int) -> List[int]:
if not right:
return nums
i = left
j = right
k = left
p = left
while i < j:
p = i
while p > j and nums[p] < nums[j]:
p = p - 1
nums[p] = nums[j]
j -= 1
nums[i] = nums[j]
i += 1
if p > k:
nums[k] = nums[j]
else:
nums[k] = nums[p]
p -= 1
k += 1
nums[k] = nums[i]
return nums
- 生活百科
輸入:西紅柿炒胡蘿卜的做法:
輸出:1.胡蘿卜洗凈去皮切絲2.鍋中加水燒開,加入胡蘿卜絲焯水,水里加入適量食鹽,焯過水的胡蘿卜絲過涼水后備用3.西紅柿去皮切成小塊,蒜切末。4.鍋中加入油,油熱后放入蒜末和西紅柿,翻炒出香味兒。5.放入胡蘿卜絲翻炒6.放入焯過水的胡蘿卜絲翻炒7.放入鹽、雞精,翻炒均勻即可關(guān)火8.出鍋,撒上蔥花,一盤香噴噴兒的西紅柿炒胡蘿卜就做好了。小訣竅:焯過水的胡蘿卜絲一定要放入涼水中,焯過水的胡蘿卜絲會(huì)更脆,口感更好9.西紅柿炒胡蘿卜可以加入少許的白糖,這樣炒出的西紅柿更加的甜,口感更佳!
- 詩(shī)詞生成
輸入:寒隨窮律變,春逐鳥聲開。初風(fēng)飄帶柳,
輸出:寒隨窮律變,春逐鳥聲開。初風(fēng)飄帶柳,細(xì)雨濕花苔。
?
?
ModelScope 魔搭社區(qū)
?
?
ModelScope 魔搭社區(qū)
?
?
到了這里,關(guān)于【文心一言 vs. 通義千文】一言對(duì)千問:自百度之后,阿里終于還是出手了——通義千問的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!