內(nèi)容,已經(jīng)成了我們生活中必不可少的成分,無論是小紅書、抖音、愛奇藝等文本、短視頻以及視頻內(nèi)容還是騰訊、網(wǎng)易的游戲內(nèi)容。每天有不可計數(shù)的內(nèi)容被生成,同時又被無數(shù)人的消費著,通過手機、電腦沉浸在一個個的 APP 中,用自己的時間、精力、金錢為各種內(nèi)容買單。
內(nèi)容的生產(chǎn)方式也是隨著時代的變化在變化的,從最早的 PGC(Professionally Generated Content)到后來的 UGC(User Generated Content),以及現(xiàn)在逐漸火熱的 AIGC(AI Generate Content),面對龐大的內(nèi)容消費市場,我們?nèi)绾瓮ㄟ^ AIGC 的方式來進行內(nèi)容生產(chǎn)呢?本文以文本內(nèi)容為例,提供了一種思路,詳情見正文,其他方法見后續(xù)文章。
keywords: AIGC、摘要生成、文本生成、NLP、內(nèi)容創(chuàng)作、AI創(chuàng)作
一、概述
一篇文本內(nèi)容,一般有標(biāo)題+正文的方式,正文通常是圖文或者純文本的形式。本文以純文本為例。
生成思路:通過已有的原文數(shù)據(jù),通過一定的手段,生成新的標(biāo)題和正文數(shù)據(jù)
巧婦難為無米之炊,創(chuàng)業(yè)還需要啟動資金呢,我們至少有一批種子數(shù)據(jù),而新內(nèi)容是在已有的原文基礎(chǔ)上進行的生成,
新內(nèi)容的標(biāo)題和正文,可以通過 NLP 中文本生成的方法獲取,即標(biāo)題生成和摘要生成。
摘要生成,一般包括抽取式和生成式,抽取式是從原文中抽取關(guān)鍵的句子組成摘要;生成式則是在理解原文的基礎(chǔ)上進行語言的重新組織表達。很明顯后者的難度要遠大于前者。
二、過程
從上面我們知道,新內(nèi)容我們拆分為了標(biāo)題和正文的分別生成,那么,新內(nèi)容的創(chuàng)作問題轉(zhuǎn)換為了標(biāo)題生成和正文生成的 NLP 生成問題了,
而這兩個問題在 NLP 領(lǐng)域已經(jīng)進行了深刻的研究并取得了不錯的成果。
標(biāo)題生成
標(biāo)題生成可以看做是摘要生成的一個特例,相比摘要需要一定的長度和前后連貫性的要求,標(biāo)題則需要新穎性、簡短性的要求。兩者的模型一般來說結(jié)構(gòu)相同,訓(xùn)練數(shù)據(jù)格式也經(jīng)常相同。
目前標(biāo)題生成開源模型有:
- tensorflow GPT2: https://github.com/liucongg/GPT2-NewsTitle
- paddle Bert: https://aistudio.baidu.com/aistudio/projectdetail/3463042
- paddle GPT2: https://aistudio.baidu.com/aistudio/projectdetail/2340166
基于公開的開源模型能夠在通用數(shù)據(jù)集上得到一個較好的效果,但如果遷移到自己的領(lǐng)域,可能效果就不盡如人意,需要通過一定的微調(diào)實現(xiàn)領(lǐng)域知識的學(xué)習(xí)。
正文生成
新內(nèi)容的正文,或者說摘要也是通過 NLP 生成模型來實現(xiàn),但目前公開的模型,在中文數(shù)據(jù)集上,實驗效果和實際效果存在一定的差異,或者說是數(shù)據(jù)集有效性,
目前效果比較好的幾個摘要生成開源模型如下:
- 科學(xué)空間: https://kexue.fm/archives/8046/comment-page-1
- GPT2: https://zhuanlan.zhihu.com/p/113869509
- GPT2: https://github.com/qingkongzhiqian/GPT2-Summary
- bert: https://github.com/dmmiller612/bert-extractive-summarizer
- bert: https://geek.digiasset.org/pages/nlp/nlpinfo/bert-text-summarizer-chinese/
- tianma: https://github.com/google-research/pegasus
- https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/106893673
利用開源模型,或者進行微調(diào)后的開源模型,將原文轉(zhuǎn)換為一定長度和描述的摘要,生成的摘要就可以當(dāng)做新內(nèi)容的正文啦。
三、分析
從上面的過程中,我們可以看出,生成的結(jié)果是兩個模型結(jié)果的組合,并且兩個模型都是壓縮型的模型,將長文本轉(zhuǎn)換為短文本,那么,相應(yīng)的
- 新內(nèi)容的篇幅一定小于原文的長度,因為無論是標(biāo)題還是摘要都是從原文中進行的概括總描述
- 理論上,新內(nèi)容的質(zhì)量不高于原文,上限是原文的質(zhì)量等級。
在做 NLP 生成模型中,標(biāo)注數(shù)據(jù)的缺失是普遍遇到的問題。這需要一定的人力。
好啦,AIGC 方式進行內(nèi)容生成的第一個方法就是這樣啦,其他的方法,詳見后續(xù)文章啦~文章來源:http://www.zghlxwxcb.cn/news/detail-487892.html
元宵節(jié)快樂~文章來源地址http://www.zghlxwxcb.cn/news/detail-487892.html
到了這里,關(guān)于AIGC(AI Generate Content)之改頭換面——基于標(biāo)題生成和摘要生成的內(nèi)容創(chuàng)作方法的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!