作者 | 張超
“除非你的廣告建立在偉大的創(chuàng)意之上,否則它就像夜航的船,不為人所注意?!?br> —— 大衛(wèi)·奧格威,現(xiàn)代廣告業(yè)奠基人
01 引子
創(chuàng)意作為一種信息載體,將廣告主的營(yíng)銷內(nèi)容呈現(xiàn)給用戶,輔助用戶消費(fèi)決策,乃至激發(fā)潛在需求。通常,創(chuàng)意可表現(xiàn)為文本、圖片及視頻物料的單一或組合形式,而創(chuàng)意優(yōu)化旨在提升創(chuàng)意物料的業(yè)務(wù)價(jià)值,本文簡(jiǎn)要聊聊針對(duì)創(chuàng)意文案自動(dòng)撰寫的一些探索與實(shí)踐,整體分五部分:第一部分簡(jiǎn)述廣告文案優(yōu)化的必要性;第二部分介紹文本生成相關(guān)概念及主流方法;第三部分介紹在文案生成方面的探索實(shí)踐;第四部分借鑒業(yè)界研究成果,探討文案自動(dòng)生成未來的一些工作思路;最后做下小結(jié)。
廣告文案優(yōu)化的必要性
廣告創(chuàng)意是連接用戶和客戶服務(wù)的橋梁,是信息傳遞最重要、最直接的方式,因此創(chuàng)意的質(zhì)量很大程度決定了用戶需求滿足度和客戶推廣效果。
面對(duì)海量的用戶需求,客戶推廣創(chuàng)意的人工運(yùn)營(yíng)+維護(hù)成本較高,尤其對(duì)于中小客戶更難以承擔(dān),導(dǎo)致質(zhì)量參差不齊,千篇一律,無法實(shí)現(xiàn)精細(xì)化的業(yè)務(wù)表達(dá),更無法做到鏈路的閉環(huán)優(yōu)化。
02 文本生成任務(wù)
2.1 生成框架及任務(wù)分級(jí)
文本生成在學(xué)術(shù)界稱為 NLG(Nature Language Generation),廣義上講,只要輸出為自然語言文本的任務(wù)均可劃入文本生成的范疇。盡管 NLG 領(lǐng)域起源較早,但很長(zhǎng)一段時(shí)間處于停滯狀態(tài),主要原因在于 NLG是一個(gè)簡(jiǎn)單輸入到復(fù)雜輸出的任務(wù),問題復(fù)雜度太大,很難有準(zhǔn)確高且泛化強(qiáng)的方法,許多場(chǎng)景下甚至低于人工規(guī)則。近年來,隨著深度學(xué)習(xí)理論技術(shù)的成熟,NLG 領(lǐng)域特別是機(jī)器翻譯、文檔摘要等有了突破性進(jìn)展。
根據(jù)輸入數(shù)據(jù)的形式,文本生成可細(xì)分為文本到文本(Text2Text)、數(shù)據(jù)到文本(Data2Text)以及圖到文本(Image2Text)的生成。本文重點(diǎn)討論Text2Text,當(dāng)前業(yè)界最主流的解決方案是 Seq2Seq+Attension的序列式生成框架(如下圖)。
其中:
-
編碼端(Encoder):將輸入序列的詞(Token)映射成Embedding向量,借助深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到整個(gè)句子的語境表示(Contextual Representation);
-
解碼端(Decoder):基于輸入序列的語境表示以及已生成的詞,預(yù)測(cè)當(dāng)前時(shí)間步最可能的詞,最終得到完整的語句;
-
注意力機(jī)制(Attention):相比固定編碼端的語境表示,注意力機(jī)制通過動(dòng)態(tài)調(diào)整不同輸入詞在每一步生成時(shí)的貢獻(xiàn)權(quán)重,使得解碼器能夠抽取更關(guān)鍵有效的信息,進(jìn)而作出更準(zhǔn)確的決策。
Seq2Seq+Attention很好地解決了不定長(zhǎng)輸入到序列式輸出的問題,是十分通用的生成方案,被廣泛應(yīng)用于機(jī)器翻譯、摘要生成、自動(dòng)對(duì)話、閱讀理解等主流任務(wù),各項(xiàng)核心指標(biāo)取得顯著提升。
序列式文本生成框架下,根據(jù)編解碼兩側(cè)的數(shù)據(jù)組織形式,分為抽取式和抽象式兩種,結(jié)合實(shí)踐經(jīng)驗(yàn),總結(jié)出各自的優(yōu)劣勢(shì)如下:
-
抽取式(Less open-ended):從原文抽取出關(guān)鍵信息,再通過編碼表征和解碼表達(dá)完成文本輸出。其優(yōu)勢(shì)在于,降低任務(wù)復(fù)雜度,可解釋性好,保證與原文較高的相關(guān)性;劣勢(shì)在于,依賴關(guān)鍵信息的提取質(zhì)量,同時(shí)受限于原文,泛化性不足;
-
抽象式(More open-ended):脫離原文的限制,實(shí)現(xiàn)完全端到端的生成,泛化能力上具有壓倒式優(yōu)勢(shì),但建模復(fù)雜度高,可解釋性不足,控制難度較大。
2.1 文本表示的常見方法
前面提到,編碼端Encoder 通過對(duì)源端輸入進(jìn)行建模獲取語義表示。實(shí)際上解碼端Decoder 生成時(shí),同樣需要獲取已生成序列的語義表示。因此,如何設(shè)計(jì)模型學(xué)習(xí)文本的深層語義表示,對(duì)于最終任務(wù)的效果極為重要。
最初,詞袋模型(BOW)是最常用的文本表示方法。隨著深度神經(jīng)網(wǎng)絡(luò)的興起,人們提出了一種獲得詞向量的詞嵌入(Word Embedding)方法,以解決詞匯表過大帶來的“維度爆炸”問題。詞/句嵌入思想已成為所有基于深度學(xué)習(xí)的NLP系統(tǒng)的重要組成部分,通過在固定長(zhǎng)度的稠密向量中編碼詞和句子,大幅度提高神經(jīng)網(wǎng)絡(luò)處理語句乃至文檔級(jí)數(shù)據(jù)的能力。
詞向量的獲取方式可以大體分為基于統(tǒng)計(jì)的方法(如共現(xiàn)矩陣、SVD)和基于語言模型的方法兩類。2013 年Google發(fā)布基于語言模型獲取詞向量的word2vec框架,其核心思想是通過詞的上下文學(xué)習(xí)該詞的向量化表示,包括CBOW(通過附近詞預(yù)測(cè)中心詞)和Skip-gram(通過中心詞預(yù)測(cè)附近詞)兩種方法,結(jié)合負(fù)采樣/層級(jí)softmax的高效訓(xùn)練。word2vec詞向量可以較好地表達(dá)不同詞之間的相似和類比關(guān)系,被廣泛應(yīng)用于NLP任務(wù)中。
語境表示學(xué)習(xí)(Contextual Embedding Learning)解決的核心問題是,利用大量未標(biāo)注的文本語料作預(yù)訓(xùn)練(Pre-training),學(xué)習(xí)文本的深層語境表達(dá),進(jìn)而在微調(diào)階段(Fine-tuning)輔助監(jiān)督任務(wù)更好地完成目標(biāo)。
目前,語境表示學(xué)習(xí)領(lǐng)域代表性的工作包括 ELMO(Embeddings from Language Models)、GPT(Generative Pre-Training)和BERT(Bidirectional Encoder Representations from Transformers)。其中,ELMO模型提出根據(jù)上下文動(dòng)態(tài)變化詞向量,通過深層雙向 LSTM 模型學(xué)習(xí)詞的表示,能夠處理單詞用法中的復(fù)雜特性,以及這些用法在不同的語言上下文中的變化,有效解決一詞多義的問題。GPT模型采用Transformer抽取文本特征,首次將Transformer應(yīng)用于預(yù)訓(xùn)練語言模型,并在監(jiān)督任務(wù)上引入語言模型(LM)輔助目標(biāo),從而解決微調(diào)階段的災(zāi)難性遺忘問題(Catastrophic Forgetting)。相比GPT的單向LM,BERT引入雙向 LM以及新的預(yù)訓(xùn)練目標(biāo)NSP(Next Sentence Prediction),借助更大更深的模型結(jié)構(gòu),顯著提升對(duì)文本的語境表示能力。業(yè)務(wù)開展過程中,我們的文本表示方法也經(jīng)歷了從傳統(tǒng)RNN到全面擁抱Transformer的轉(zhuǎn)變。
下面特別介紹同文本生成任務(wù)高度適配的MASS 預(yù)訓(xùn)練框架(Masked Sequence to Sequence pre-training)。我們知道,常規(guī)BERT只能用于文本理解(NLU)相關(guān)任務(wù),如文本分類、情感識(shí)別、序列標(biāo)注等,無法直接用在文本生成上,因?yàn)锽ERT 只預(yù)訓(xùn)練出一個(gè)編碼器用于下游任務(wù),而序列式文本生成框架包含編碼器、解碼器以及起連接作用的注意力機(jī)制。對(duì)此,微軟團(tuán)隊(duì)提出將BERT升級(jí)至 MASS,非常適合生成任務(wù)的預(yù)訓(xùn)練。
MASS的整體結(jié)構(gòu)如下,其訓(xùn)練方式仍屬于無監(jiān)督。對(duì)于一段文本,首先隨機(jī)mask其中連續(xù)的 K 個(gè)詞,然后把這些詞放入Decoder的相同位置,而Encoder中只保留未被mask掉的詞。借助這種學(xué)習(xí)方式,期望Decoder能綜合利用Encoder的語義表達(dá)信息和Decoder前面的詞,來預(yù)測(cè)這些被mask的詞序列。
有意思的是,BERT和GPT都可視為MASS的特例。當(dāng) masked序列長(zhǎng)度K=1時(shí),MASS解碼器端沒有任何輸入信息,相當(dāng)于只用到編碼器模塊,此時(shí)MASS就退化成BERT;當(dāng) K=句子長(zhǎng)度時(shí),MASS編碼器端所有詞都被屏蔽掉,解碼器的注意力機(jī)制相當(dāng)于沒有獲取到信息,此時(shí)MASS便退化成GPT,或標(biāo)準(zhǔn)單向LM。
對(duì)于為什么MASS能取得比較好的效果?論文給出了以下解釋:
-
Encoder中mask部分tokens,能夠迫使它理解unmasked tokens,提升語義表示能力;
-
Decoder中需要預(yù)測(cè)masked的連續(xù)tokens,這同監(jiān)督訓(xùn)練時(shí)的序列式解碼相一致;
-
Decoder中只保留masked的tokens,而不是所有的tokens,促使Decoder盡量從Encoder中抽取關(guān)鍵信息, Attetion 機(jī)制也得到有效訓(xùn)練。
2.3 怎么評(píng)估生成文案的好壞
目前主流的評(píng)估方法主要基于機(jī)器指標(biāo)[25]和人工評(píng)測(cè)。機(jī)器指標(biāo)從不同角度自動(dòng)衡量生成文本的質(zhì)量,如基于模型輸出概率判斷是否表達(dá)通順的perplexity,基于字符串重疊判斷內(nèi)容一致性的BLUE/ROUGE、判斷內(nèi)容多樣性的Distinct-N/Self-Bleu等?;跀?shù)據(jù)的評(píng)測(cè),在機(jī)器翻譯、閱讀理解等相對(duì)封閉、確定的場(chǎng)景下有很大意義,這也是對(duì)應(yīng)領(lǐng)域最先突破的重要原因。對(duì)廣告創(chuàng)意優(yōu)化場(chǎng)景來說,除選取合適的基礎(chǔ)機(jī)器指標(biāo)作為參考,會(huì)更注重業(yè)務(wù)指向的目標(biāo)優(yōu)化,故多以線上實(shí)際效果為導(dǎo)向,輔以人工評(píng)測(cè)。
關(guān)于人工評(píng)測(cè)指標(biāo),主要看兩方面:一是生成文案的基礎(chǔ)質(zhì)量,包括文本可讀性及內(nèi)容一致性,可讀性主要看字面是否通順、重復(fù)及是否有錯(cuò)別字等,一致性主要看前后語義邏輯是否一致、是否同落地頁內(nèi)容一致;二是內(nèi)容多樣性,這直接關(guān)系到用戶的閱讀體驗(yàn)及客戶的產(chǎn)品滿意度。
03 廣告文案生成實(shí)踐
3.1 基礎(chǔ)數(shù)據(jù)來源
“巧婦難為無米之炊”,要開展文本創(chuàng)意生成的工作,業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)必不可少。當(dāng)前使用到的文本數(shù)據(jù)源主要包括:
-
廣告展點(diǎn)日志:客戶自提標(biāo)題/描述、用戶行為數(shù)據(jù)
-
廣告主落地頁:落地頁標(biāo)題、業(yè)務(wù)描述、知識(shí)文章
-
大搜日志: 自然結(jié)果展點(diǎn)數(shù)據(jù)
上述數(shù)據(jù)來源豐富、數(shù)據(jù)規(guī)模大,也伴隨著如下挑戰(zhàn):
-
內(nèi)容多樣:數(shù)據(jù)長(zhǎng)度分布、內(nèi)容表達(dá)形式存在顯著差異,對(duì)文本表示提出較高要求;
-
質(zhì)量不一:雖然數(shù)據(jù)量大,實(shí)際上較大比例的數(shù)據(jù)質(zhì)量并不達(dá)標(biāo),如果源端不做好質(zhì)量控制,勢(shì)必影響業(yè)務(wù)目標(biāo)的優(yōu)化;
-
場(chǎng)景不一:不同的業(yè)務(wù)場(chǎng)景下,模型優(yōu)化的側(cè)重點(diǎn)也不一樣,對(duì)如何利用已有數(shù)據(jù)達(dá)成業(yè)務(wù)目標(biāo)提出更高要求。比如廣告標(biāo)題與廣告描述,除了優(yōu)化點(diǎn)擊率、轉(zhuǎn)化率這些核心業(yè)務(wù)指標(biāo),前者更側(cè)重內(nèi)容簡(jiǎn)明扼要、準(zhǔn)確傳達(dá)客戶核心業(yè)務(wù),后者側(cè)重內(nèi)容豐富多樣、允許適度做擴(kuò)展延伸。
3.2 抽取式創(chuàng)意生成
傳統(tǒng)意義上的「抽取式」,類如在文檔摘要任務(wù)中,從段落中選出一些重要片段排列組合后作為摘要結(jié)果,不產(chǎn)生新信息。這里將抽取式生成表示為:從原文中抽取出一些關(guān)鍵信息,進(jìn)行直接控制型生成(directed generation)。
在創(chuàng)意優(yōu)化工作的開展初期,我們調(diào)研并上線了抽取式的生成策略,取得較好的指標(biāo)提升。下面介紹抽取式生成在廣告描述上的應(yīng)用,這一方法突出優(yōu)勢(shì)在于生成的新文本同原文整體契合度高,也具備一定的泛化表達(dá)。
-
信息提取:廣告創(chuàng)意中的關(guān)鍵信息,一般表現(xiàn)為核心業(yè)務(wù)/營(yíng)銷點(diǎn)/品牌詞/專名等,而廣告描述相對(duì)標(biāo)題更長(zhǎng),內(nèi)容形式更自然,要完整保留原文關(guān)鍵信息有一定難度。對(duì)此,我們采用由粗到精(coarse-to-fine)的選擇策略:首先通過wordrank選出高權(quán)重詞,再以片段為單位,各片段保留次高權(quán)重詞/專名詞,并對(duì)被切散的品牌詞作策略撈回。
-
生成模型:采用Transform-based Seq2Seq文本生成框架(如下圖),輸入端包含Source和 Context 兩部分,我們將拍賣詞作為 Source,將從描述提取的關(guān)鍵詞序列作為Context,Target對(duì)應(yīng)原描述,類似”選詞造句”的方式,指導(dǎo)模型學(xué)習(xí)將離散詞組合表述成完整語句的能力。
為兼顧生成質(zhì)量與業(yè)務(wù)目標(biāo)的提升,我們構(gòu)建了以下重要的控制機(jī)制:
-
核心業(yè)務(wù)一致:拍賣詞(bidword)是用戶需求及廣告主業(yè)務(wù)的表達(dá),而廣告創(chuàng)意普遍包含拍賣詞,通過將拍賣詞作為 Source,在Encoder Source與Decoder Output構(gòu)建起強(qiáng)約束(Hard Constrained),保證模型生成的內(nèi)容同核心業(yè)務(wù)高度一致;
-
業(yè)務(wù)目標(biāo)一致:生成模型本質(zhì)是一個(gè)Language Model,訓(xùn)練目標(biāo)是最小化詞級(jí)別的交叉熵?fù)p失,而業(yè)務(wù)目標(biāo)主要是優(yōu)化廣告點(diǎn)擊率,這導(dǎo)致訓(xùn)練任務(wù)和業(yè)務(wù)目標(biāo)不一致。對(duì)此,采樣的方案是:假設(shè)核心指標(biāo)同創(chuàng)意質(zhì)量正相關(guān),則可以按照"觸發(fā)買詞+觸發(fā)類型+廣告位置"進(jìn)行分桶,分桶目的是盡量降低暴露偏差(Exposure Bias);同一桶內(nèi)按核心后驗(yàn)指標(biāo)排序,取頭部的創(chuàng)意作為訓(xùn)練語料,從而指導(dǎo)模型學(xué)習(xí)高質(zhì)量創(chuàng)意的內(nèi)容組織與表達(dá)方式;
-
信息區(qū)分選擇:Context 中關(guān)鍵詞序列若全部來自Target,自然也引入了強(qiáng)約束,即輸入詞均將出現(xiàn)在輸出文本中,這種情況下的約束關(guān)系同業(yè)務(wù)目標(biāo)卻不太契合,首先關(guān)鍵信息提取階段容易引入低質(zhì)噪聲詞,再加上模型受眾主要是低質(zhì)廣告創(chuàng)意,在其內(nèi)容整體欠優(yōu)的情況下,強(qiáng)約束式生成難以保證生成質(zhì)量。對(duì)此,組織訓(xùn)練數(shù)據(jù)時(shí)通過在 Context中隨機(jī)加入一些干擾詞,促使模型具備甄別Context優(yōu)質(zhì)信息的能力,緩解強(qiáng)約束式生成帶來的泛化性不足以及質(zhì)量問題。
3.3 抽象式創(chuàng)意生成
抽取式創(chuàng)意生成在質(zhì)量和業(yè)務(wù)指標(biāo)上均取得較好效果,但也存在明顯瓶頸,即受限于原文,泛化能力有限,同時(shí)依賴關(guān)鍵信息的抽取質(zhì)量,尤其原始內(nèi)容整體欠優(yōu)時(shí)難以完成二次優(yōu)化。對(duì)此,我們嘗試了抽象式的生成策略:一方面去掉Context中原文的關(guān)鍵信息,解除同 Target 強(qiáng)約束關(guān)系;另一方面,引入業(yè)務(wù)場(chǎng)景相關(guān)的原始文本作為指導(dǎo),類似情景寫作,給定當(dāng)前情景的 topic以及前文信息,生成相匹配的后文。只要控制好核心主題以及業(yè)務(wù)敏感信息,抽象式生成的探索空間比抽取式開放得多,對(duì)創(chuàng)意內(nèi)容的優(yōu)化潛力顯著提升。
下面介紹抽象式生成策略在廣告標(biāo)題上的應(yīng)用。廣告標(biāo)題是連接用戶與客戶最重要的信息渠道,因此除了優(yōu)化標(biāo)題點(diǎn)擊率,用戶體驗(yàn)同樣重要,即廣告標(biāo)題(所見)需要同廣告落地頁(所得)保持一致,"掛羊頭賣狗肉”的現(xiàn)象十分有損用戶體驗(yàn)。最直接的想法,就是將落地頁的文本信息前置到廣告標(biāo)題中。分析發(fā)現(xiàn),落地頁文本在內(nèi)容分布與表達(dá)方式上同廣告差異較大,直接替換或部分插入的方式不太可取。對(duì)此,我們借助抽象式生成策略,將落地頁信息加入Context作為指導(dǎo),期望生成與之匹配且符合廣告表達(dá)形式的文本,模型如下所示。
實(shí)踐過程中,發(fā)現(xiàn)很多case 生成質(zhì)量不佳(字面重復(fù)、語義不通順),而且沒有包含落地頁的內(nèi)容,經(jīng)過分析可能有以下原因:
如前所述,抽象式生成的建模復(fù)雜度本身就高,加上訓(xùn)練數(shù)據(jù)中兩端文本在內(nèi)容分布和表達(dá)上的顯著差異,進(jìn)一步加大模型的學(xué)習(xí)難度;
訓(xùn)練數(shù)據(jù)中,Target 端廣告創(chuàng)意包含Context中落地頁信息的占比很小,此外將拍賣詞作為Source(保留核心業(yè)務(wù)),不可避免地引入強(qiáng)約束,進(jìn)一步削弱Attention 機(jī)制對(duì)落地頁信息的關(guān)注,最終在解碼輸出時(shí)自然難以出現(xiàn)同落地頁相匹配的內(nèi)容。
針對(duì)以上問題,一方面我們引入 MASS 預(yù)訓(xùn)練技術(shù)、調(diào)大模型結(jié)構(gòu),另一方面基于信息校驗(yàn)調(diào)整訓(xùn)練語料,促使落地頁內(nèi)容更好地融入生成結(jié)果。其中,預(yù)訓(xùn)練環(huán)節(jié)比較有效,一定程度緩解調(diào)整后平行語料匱乏的問題,同時(shí)賦予編碼端更強(qiáng)的語義刻畫能力、attention機(jī)制更好的信息捕捉能力以及解碼端更準(zhǔn)確的信息表達(dá)能力。評(píng)估生成效果,模型能夠更好參考落地頁的內(nèi)容,結(jié)合廣告核心業(yè)務(wù),生成體驗(yàn)一致的優(yōu)質(zhì)廣告文案。
04 可借鑒的一些思路
前一節(jié)中提到業(yè)務(wù)開展過程遇到的一些問題,大部分通過模型升級(jí)、數(shù)據(jù)優(yōu)化及規(guī)則校驗(yàn)?zāi)軌虻玫接行Ы鉀Q,但對(duì)于內(nèi)容一致性、內(nèi)容多樣性兩個(gè)重要方面,解決方案并非最優(yōu),仍有較大優(yōu)化空間,參考學(xué)術(shù)界相關(guān)研究,下面列舉兩個(gè)優(yōu)化思路。
4.1 模型結(jié)構(gòu)改進(jìn)
目前我們采用的 Seq2Seq 生成框架(如下圖),在輸入端將Source和 Context 連成一個(gè)文本序列送入編碼器。整體來看Source 和 Context 在任務(wù)中扮演著不同的角色,合并輸入容易對(duì)編碼器的語義特征提取造成干擾。比如,Context 文本一般比 Source 長(zhǎng),且Context往往包含一些噪聲,雖然通過訓(xùn)練數(shù)據(jù)組織構(gòu)建了強(qiáng)約束關(guān)系(Source拍賣詞普遍出現(xiàn)在 Target 中),但在從模型結(jié)構(gòu)上看,編碼端實(shí)際弱化了 Source ,解碼端很難對(duì)融合編碼后的信息進(jìn)行區(qū)分,不利于有效生成,甚至?xí)霈F(xiàn)業(yè)務(wù)偏離的夢(mèng)幻case,尤其對(duì)于抽象式地生成,因?yàn)樵搱?chǎng)景下Source 與Context的內(nèi)容分布通常差異較大。
對(duì)此,有研究提出將Source 與 Context 區(qū)分開來,在輸入端兩者各自進(jìn)行編碼(見論文[13]),這樣能夠帶來諸多好處:
-
消除編碼階段不同源數(shù)據(jù)的相互干擾,有利于改善 Encoder語義特征的提取效果;
-
允許根據(jù)具體業(yè)務(wù)需求,為不同來源的數(shù)據(jù)實(shí)施特有的編碼控制策略,比如文本過長(zhǎng)且包含噪聲的 Context容易降低 Encoder 編碼效果,對(duì)此可以在self-attention模塊中加入Softmax temperature以影響概率分布計(jì)算結(jié)果(如下圖),其中 τ 值越大將促使模型更加關(guān)注那些得分高的詞,即 Context 中的重要信息
-
Decoder側(cè)可根據(jù)實(shí)際需求,對(duì)多源數(shù)據(jù)的隱層表達(dá)實(shí)施不同的整合策略(如下圖),其中:策略(a)直接將 Source 與 Context 的編碼向量E(S)與 E?直接 Concat 送入 Decoder 的 Attention 模塊;策略(b)先后對(duì) E?與 E(S)分別作Attention,從而一方面實(shí)現(xiàn) Source 與 Context 的信息交互,更加強(qiáng)了 Source對(duì)于解碼輸出的控制,這一策略有助于提升生成文本同 Source 的一致性;策略?在(b)的基礎(chǔ)上,通過多輪交替式的 Attention 進(jìn)一步加強(qiáng) Source 與 Context 的信息交互。
-
對(duì)Context單獨(dú)編碼,便于后續(xù)引入更多類型的數(shù)據(jù),比如結(jié)構(gòu)化知識(shí)、客戶屬性、用戶個(gè)性化特征,甚至跨模態(tài)的圖片/視頻向量表達(dá)。
此外,論文提出一種數(shù)據(jù)增強(qiáng)策略,實(shí)驗(yàn)論證各項(xiàng)評(píng)估指標(biāo)取得顯著提升,具體是:對(duì)于每條訓(xùn)練數(shù)據(jù)(表示為 <S, C> -> T),以一定概率構(gòu)造S->T或者S->C的新語料,前者指導(dǎo)模型生成與 Source 更相關(guān)的內(nèi)容,后者一方面促使編碼器從 Source 提取到與 Context 更相關(guān)的信息、另一方面由于 Context 要比 Source 長(zhǎng)許多,可視為對(duì)解碼器作LM預(yù)訓(xùn)練。
4.2 外部知識(shí)增強(qiáng)
無論是抽取式還是抽象式,生成目標(biāo)都是對(duì)輸入信息進(jìn)行合理準(zhǔn)確的擴(kuò)展與泛化,實(shí)際解碼預(yù)測(cè)時(shí)主要基于編碼器對(duì)輸入信息的理解表示,輸出概率最大的序列。因此,編碼器是否能夠充分理解輸入文本,決定了最終生成的效果。
在人工評(píng)測(cè)時(shí)發(fā)現(xiàn)許多"標(biāo)題黨"、"萬金油”式的生成文本,比如”XXX,告訴你一個(gè)簡(jiǎn)單的解決方法”、”XXX是一家集研發(fā)、生產(chǎn)、銷售為一體的公司”、”XXX,歡迎點(diǎn)擊咨詢”等,在對(duì)話任務(wù)中稱這類現(xiàn)象為"general and meaningless response”。出現(xiàn)這種現(xiàn)象主要在于,僅僅依靠 Source/Context 自身文本,在語義編碼階段難以對(duì)業(yè)務(wù)實(shí)體、專名等概念類的詞進(jìn)行充分理解和表示,加之?dāng)?shù)據(jù)驅(qū)動(dòng)的模型容易”偷懶”,從而導(dǎo)致生成文本偏短、偏通用化、業(yè)務(wù)實(shí)體缺失/偏離。
常規(guī)解決方法是調(diào)整/擴(kuò)充訓(xùn)練語料、在Decoder端加入相關(guān)控制策略,一定程度上能夠緩解。實(shí)際上,Seq2Seq的生成任務(wù)普遍存在上述問題,對(duì)此,目前業(yè)界廣泛研究且驗(yàn)證有效的方案是引入外部常識(shí)性知識(shí)(commonsense knowledge),輔助指導(dǎo)模型作出更全面、更準(zhǔn)確的決策。對(duì)于如何利用外部知識(shí),一類做法是在監(jiān)督訓(xùn)練之前,基于知識(shí)物料作預(yù)訓(xùn)練,加深模型對(duì)實(shí)體信息的理解,訓(xùn)練語料通常是"實(shí)體+描述性定義",如”主機(jī)游戲,又名電視游戲,包含掌機(jī)游戲和家用機(jī)游戲兩部分,是一種用來娛樂的交互式媒體”;另一類做法是在監(jiān)督訓(xùn)練階段,先從 Source 和 Context 文本中提取出一系列實(shí)體詞,將實(shí)體詞作為索引從通用知識(shí)庫中檢索出對(duì)應(yīng)的Knowledge信息,借助 memory 機(jī)制將其融入模型中(如下圖),實(shí)現(xiàn)<Source,Context,Knowledge>三者共同作用訓(xùn)練與生成,具體實(shí)現(xiàn)細(xì)節(jié)見論文[14]。
05 小結(jié)
針對(duì)文本生成的一系列節(jié)點(diǎn),從模型結(jié)構(gòu)到優(yōu)化目標(biāo),從數(shù)據(jù)組織到任務(wù)遷移,業(yè)界不斷涌現(xiàn)出眾多優(yōu)秀的研究及實(shí)踐成果,如大規(guī)模預(yù)訓(xùn)練模型(ERNIE/PLATO/T5/BART)、圖譜知識(shí)嵌入、Memory機(jī)制、跨模態(tài)/跨場(chǎng)景聯(lián)合建模等等,為技術(shù)業(yè)務(wù)迭代給予很好的借鑒指導(dǎo),后續(xù)有機(jī)會(huì)再交流,感興趣的同學(xué)可參考[15]~[24]相關(guān)資料,歡迎討論交流。
————END————
參考資料:
[1]Neural machine translation by jointly learning to align and translate,arXiv:1409.0473
[2]Attention Is All You Need,arXiv:1706.03762
[3]ELMO:Deep contextualized word representations,arXiv:1802.05365
[4]OPAI GPT: Improving Language Understanding by Generative Pre-Training
[5]Bert: Pre-training of deep bidirectional transformers for language understanding,arXiv:1810.04805
[6]MASS: Masked Sequence to Sequence Pre-training for Language Generation,arXiv:1905.02450
[7]Generating sequences with recurrent neural networks,arXiv:1308.0850
[8]Distributed Representations of Words and Phrases and their Compositionally, arXiv:1310.4546
[9]Get To The Point: Summarization with Pointer-Generator Networks,arXiv:1704.04368
[10]Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization,arXiv:1808.08745
[11]Pre-trained Models for Natural Language Processing: A Survey,arXiv:2003.08271
[12]Do Massively Pretrained Language Models Make Better Storytellers? ,arXiv:1909.10705
[13]Improving Conditioning in Context-Aware Sequence to Sequence Models,arXiv:1911.09728
[14]CTEG: Enhancing Topic-to-Essay Generation with External Commonsense Knowledge
[15]Unified Language Model Pre-training for Natural Language Understanding and Generation,arXiv:1905.03197
[16]Knowledge Diffusion for Neural Dialogue Generation
[17]Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model,arXiv:1906.01231
[18]Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting,arXiv:1805.11080
[19]What makes a good conversation? How controllable attributes affect human judgments,arXiv:1902.08654
[20]The curious case of neural text degeneration,arXiv:1904.09751
[21]Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation,arXiv:2106.07207
[22]Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach,arXiv:2101.07714
[23]ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation,arXiv:2001.11314
[24]PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable,arXiv:1910.07931
[25]Evaluation of Text Generation: A Survey,arXiv:2006.14799文章來源:http://www.zghlxwxcb.cn/news/detail-501538.html
推薦閱讀:
百度工程師教你玩轉(zhuǎn)設(shè)計(jì)模式(適配器模式)
百度搜索業(yè)務(wù)交付無人值守實(shí)踐與探索
分布式ID生成服務(wù)的技術(shù)原理和項(xiàng)目實(shí)戰(zhàn)
揭秘百度智能測(cè)試在測(cè)試評(píng)估領(lǐng)域?qū)嵺`
再添神器!Paddle.js 發(fā)布 OCR SDK
視頻中為什么需要這么多的顏色空間?文章來源地址http://www.zghlxwxcb.cn/news/detail-501538.html
到了這里,關(guān)于聊聊機(jī)器如何“寫“好廣告文案?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!