目錄
一、學(xué)習(xí)素材重復(fù)引用的隱患
二、涉及到的問題
三、緩解的辦法
四、進(jìn)一步的技術(shù)干預(yù)
味同嚼蠟。
如果大模型的學(xué)習(xí)素材,反復(fù)被使用,拉出來又吃回去,如此往復(fù),會(huì)怎么樣?
我在前面已經(jīng)討論過了,有大模型A接了大模型B,來訓(xùn)練自己的數(shù)據(jù)。
這不算什么問題。此外,不知道大家注意到?jīng)]有,百度的文心一言大模型,這幾天升級,將答案的來源,都列到了下面。叫做參考。一是聲明了內(nèi)容的來源和出處,二是便于用戶深度去閱讀原文,特別是知識文獻(xiàn)。當(dāng)然,也給源站點(diǎn)帶來了流量,隱含的商業(yè)模式就出來了。
那么我們可以去思考:如果我用AIGC寫的文章,發(fā)表在CSDN,或者某乎。大模型進(jìn)行了學(xué)習(xí),在沒有人為監(jiān)督和標(biāo)注的情況下,又有人用了相同的提示詞,AIGC再次利用這些資料生成答案,如此循環(huán)下去,哪里還有原創(chuàng),如果文章中有微小的錯(cuò)誤,那么將永遠(yuǎn)沒有被改正的機(jī)會(huì),而且會(huì)不斷的被放大。
一、學(xué)習(xí)素材重復(fù)引用的隱患
-
錯(cuò)誤的更加錯(cuò)誤:如果大模型主要依賴于機(jī)器生成的文章作為學(xué)習(xí)素材,而這些文章本身存在錯(cuò)誤或偏見,那么大模型可能會(huì)放大這些錯(cuò)誤和偏見。這可能導(dǎo)致信息的不準(zhǔn)確和誤導(dǎo)性內(nèi)容的傳播。然而,要注意的是,大模型通常也會(huì)結(jié)合其他來源的數(shù)據(jù)和信息進(jìn)行訓(xùn)練,而不僅僅是機(jī)器生成的文章。此外,隨著技術(shù)的進(jìn)步,大模型也在不斷改進(jìn)和優(yōu)化,以提高其準(zhǔn)確性和可靠性。
-
人類的權(quán)威原創(chuàng)越來越少:AIGC和大模型的發(fā)展確實(shí)可能對人類的原創(chuàng)性產(chǎn)生一定影響。機(jī)器可以迅速生成大量內(nèi)容,這可能使一些人更傾向于使用機(jī)器生成的文章而不是自己進(jìn)行思考和創(chuàng)作。然而,人類的思維、創(chuàng)造力和獨(dú)特觀點(diǎn)是無法被機(jī)器完全替代的。人類的原創(chuàng)性在各個(gè)領(lǐng)域仍然具有重要價(jià)值,包括文學(xué)、藝術(shù)、科學(xué)等。因此,盡管機(jī)器生成的內(nèi)容可能增加,但人類的權(quán)威原創(chuàng)仍然會(huì)占據(jù)一席之地。
二、涉及到的問題
-
數(shù)據(jù)偏差(Data Bias):當(dāng)訓(xùn)練數(shù)據(jù)包含某種固有的偏見或不平衡時(shí),模型可能會(huì)學(xué)習(xí)到這些偏見,并在生成內(nèi)容時(shí)反映出來。如果大模型主要使用機(jī)器生成的文章作為訓(xùn)練數(shù)據(jù),而這些文章本身帶有錯(cuò)誤或偏見,那么大模型可能會(huì)放大這些偏差。
-
模型泛化(Model Generalization):指的是模型對未見過的數(shù)據(jù)的預(yù)測能力。如果模型過度擬合訓(xùn)練數(shù)據(jù)(包括其中的錯(cuò)誤),它可能無法很好地泛化到新的、不同的數(shù)據(jù)上。
-
原創(chuàng)性稀釋(Dilution of Originality):這不是一個(gè)標(biāo)準(zhǔn)的學(xué)術(shù)名詞,但可以用來描述當(dāng)大量機(jī)器生成的內(nèi)容充斥在信息環(huán)境中時(shí),人類原創(chuàng)性內(nèi)容可能相對減少或被淹沒的現(xiàn)象。
-
人工智能倫理(AI Ethics):這是一個(gè)更廣泛的領(lǐng)域,涉及到機(jī)器學(xué)習(xí)和人工智能如何影響社會(huì)、文化和個(gè)人權(quán)益的問題。您提出的問題涉及到AI倫理中關(guān)于內(nèi)容真實(shí)性、原創(chuàng)性和信息質(zhì)量的討論。
三、緩解的辦法
- 提高數(shù)據(jù)質(zhì)量:確保大模型使用的學(xué)習(xí)素材具有準(zhǔn)確性和多樣性,避免依賴于存在錯(cuò)誤或偏見的數(shù)據(jù)源。
- 引入人工審核:對于機(jī)器生成的內(nèi)容,可以引入人工審核機(jī)制,以確保其準(zhǔn)確性和可靠性。人工審核可以糾正錯(cuò)誤、消除偏見,并提供更高質(zhì)量的內(nèi)容。
- 鼓勵(lì)原創(chuàng)性:通過獎(jiǎng)勵(lì)機(jī)制、版權(quán)保護(hù)等方式,鼓勵(lì)人們進(jìn)行原創(chuàng)性思考和創(chuàng)作。這可以激發(fā)人類的創(chuàng)造力和獨(dú)特觀點(diǎn),促進(jìn)文化和科學(xué)的進(jìn)步。
四、進(jìn)一步的技術(shù)干預(yù)
-
數(shù)據(jù)質(zhì)量管理:在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)質(zhì)量被認(rèn)為是模型性能的關(guān)鍵因素。清理、驗(yàn)證和增強(qiáng)數(shù)據(jù)集是標(biāo)準(zhǔn)做法,以確保模型學(xué)習(xí)到準(zhǔn)確和有用的信息。
-
人機(jī)協(xié)作(Human-in-the-Loop, HITL):這是一種將人類判斷引入自動(dòng)化系統(tǒng)的方法。在內(nèi)容生成和審核的上下文中,HITL可以用來糾正機(jī)器的錯(cuò)誤、提供額外的訓(xùn)練數(shù)據(jù)或驗(yàn)證機(jī)器生成的輸出的質(zhì)量。
-
信息可信度和真實(shí)性:在新聞傳播、社交媒體分析和信息科學(xué)領(lǐng)域,有大量研究關(guān)注如何評估和維持信息的可信度和真實(shí)性。這包括開發(fā)算法來檢測誤導(dǎo)性內(nèi)容和偏見,以及設(shè)計(jì)政策和實(shí)踐來促進(jìn)高質(zhì)量信息的傳播。
-
知識產(chǎn)權(quán)和激勵(lì)機(jī)制:法律、經(jīng)濟(jì)和社會(huì)科學(xué)領(lǐng)域的研究探討了如何通過知識產(chǎn)權(quán)法、獎(jiǎng)勵(lì)系統(tǒng)和市場機(jī)制來鼓勵(lì)原創(chuàng)性和創(chuàng)新。
我曾經(jīng)寫過文章,專門討論 AIGC的版權(quán)問題。【AIGC】猴子拍照版權(quán)是誰的:一文讀懂AIGC和版權(quán)問題_猴子拍照享不享有著作權(quán)-CSDN博客?文章來源:http://www.zghlxwxcb.cn/news/detail-814881.html
原則上講,用AIGC生成的圖片,等同于你用PS創(chuàng)作,用了工具而已,都是有版權(quán)的。文字也一樣,但是問題實(shí)際也接踵而至,如何保護(hù)“真正”傳統(tǒng)意義上的原創(chuàng)者,變得更有挑戰(zhàn)性。文章來源地址http://www.zghlxwxcb.cn/news/detail-814881.html
到了這里,關(guān)于【AIGC】警惕大模型的性稀釋的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!