英文名稱: Character-LLM: A Trainable Agent for Role-Playing
中文名稱: 角色-LLM:訓(xùn)練Agent用于角色扮演
文章:?[https://arxiv.org/abs/2310.10158](https://arxiv.org/abs/2310.10158)
作者: Yunfan Shao, ?Linyang Li, ?Junqi Dai, ?Xipeng Qiu
機構(gòu): 復(fù)旦大學(xué)計算機學(xué)院
日期: 2023-11-16
引用次數(shù): 5
1 讀后感
論文的目標是使用模型來模擬具體的人物角色,這個想法很有意思,有點類似于反思過程的逆向操作。反思的過程是從具體到抽象,我們根據(jù)生活中的具體場景和事件進行思考,通過層層抽象最終形成對一個人的理解。而角色扮演則相反,例如模擬一個歷史人物,首先從維基百科獲取這個人的信息,這些信息通常是抽象的,需要將這些抽象內(nèi)容具體化,場景化,使其變成鮮活的經(jīng)歷,然后用這些經(jīng)歷來訓(xùn)練模型。
在從具體到抽象的過程中,數(shù)據(jù)量逐漸減少,因此可以使用提示,有限的上下文就足夠支持;而在文中提出的從抽象到具體的擴展過程中,數(shù)據(jù)量逐漸增多,使用提示就會比較困難,也需要更多的資源,因此作者考慮使用這些新數(shù)據(jù)來訓(xùn)練模型,通過精調(diào)模型的方式來解決問題。
另一個有趣的點是,為了保持角色的完整性,需要讓大模型忽略一些角色不應(yīng)該擁有的知識,例如貝多芬不應(yīng)該懂得編程。作者通過創(chuàng)建對話的方式來引導(dǎo)確定角色的知識范圍,從而創(chuàng)建數(shù)據(jù)供大模型訓(xùn)練。這種攻防交替的過程有點像“左右互搏”。
我認為,這種逆向思維非常有意思。另一個小發(fā)現(xiàn)是:我們可以考慮利用大模型進行一些細化和擴寫的工作,比如根據(jù)貝多芬的簡介寫一本貝多芬的故事。
換一個角度看,如果我們能記錄一個人的日常生活,可能就能訓(xùn)練出一個能夠模擬他的機器人。
2 摘要
目的:利用大模型的理解能力和文本生成能力,來模擬一個人。
方法:教大模型扮演特定的人,如貝多芬、凱撒大帝等。方法側(cè)重于根據(jù)特定角色生成訓(xùn)練數(shù)據(jù),訓(xùn)練模型模擬這個人。
實驗:對訓(xùn)練過的模型代理進行訪談,并評估代理是否記住了他們的角色和經(jīng)歷。
3 引言
之前的實驗提出了一個創(chuàng)新的想法,即使用語言模型來模擬人類的日常行為,如起床、做早餐、上班等。這個想法的核心是利用 LLMs 模擬人類的記憶、反思和行動,以生成多人的日常生活場景,實現(xiàn)這一目標的具體方法是通過提示工程。然而,當需要深入模擬一個人的思考和經(jīng)驗時,簡單的提示可能就不再足夠。一個更為理想的模擬方式是精細調(diào)整人工智能模型,讓其能夠體驗事件、感受情緒,并記住與他人的互動。
文中提出了 Character-LLM,一種可訓(xùn)練的角色扮演 Agent,可以從實際經(jīng)驗、特征和情感中學(xué)習。
首先,收集某個人物的經(jīng)歷;然后,根據(jù)收集到的個人經(jīng)歷提取出場景,作為記憶的閃回;接著,我們將這些閃回擴展成具體的場景,并為這些場景添加詳細的元素,使模型能夠從詳細的經(jīng)驗中學(xué)習,從而形成特定的性格和情感。例如,在論文中,作者構(gòu)建了描述貝多芬父親的場景,他是一位音樂家,對年輕的貝多芬進行了嚴格的教育。
最后,將這樣的經(jīng)驗輸入到特定的語言模型中,例如 LLaMA 7B 模型,并采用監(jiān)督微調(diào)的策略來構(gòu)建 Character-LLM。為了避免出現(xiàn)諸如古代著名人物的角色扮演代理擁有現(xiàn)代世界知識等不合理的情況,還引入了“保護經(jīng)驗”的概念,以確保角色的一致性。
圖 1:Character-LLM. 首先從可靠的來源為這個角色策劃了個人資料(以貝多芬為例)。然后,使用以下指令從這些配置文件中引出詳細的體驗 LLM 作為閃回場景。通過使用體驗上傳從這些場景中學(xué)習,訓(xùn)練有素的模擬可以像貝多芬一樣進行高度可信的互動。
最后,通過新穎的面試流程測試這些角色模擬。來評估評角色扮演效果。結(jié)果表明,文中提出的 Character-LLMs 是基于其訓(xùn)練數(shù)據(jù)的成功模擬。得出結(jié)論:
- 可訓(xùn)練的智能體在記憶經(jīng)驗和保持宿主的個性方面很有前途;
- 可訓(xùn)練的智能體仍然受到有限經(jīng)驗和全局知識的影響,可能會將他們的記憶與幻覺混淆。
文章貢獻如下:
- 提出通過 Character-LLM 構(gòu)建可訓(xùn)練智能體作為角色扮演的想法。
- 提出一個訓(xùn)練框架,包括經(jīng)驗重建、上傳和保護經(jīng)驗,以訓(xùn)練模擬使用 LLMs。
- 提出評試角色智能體的方法。
4 方法
根據(jù)過去的經(jīng)歷和事件培養(yǎng)個性的方式中汲取靈感。讓大型語言模型模仿預(yù)定義角色的心理活動和身體行為,從重建的場景中,獲得扮演他們的能力。
圖 2:角色模擬專用基礎(chǔ)模型的機制。
4.1 構(gòu)建經(jīng)驗數(shù)據(jù)集
使用大型語言模型重建特定個體的體驗。人類的經(jīng)歷是高度復(fù)雜的,包括許多重要的里程碑,其中穿插著瑣碎和不相關(guān)的事件,通常跨越相當長的時期。文中提出了一個基于事實的體驗重建管道,分為下面三部分。
4.1.1 Profile 簡介
組織一個描述人物各個方面的綜合角色檔案。描述全面介紹了角色的整體信息和重大事件,涵蓋了從幼兒期到最后階段。具體方法是:使用個人的相應(yīng)維基百科頁面作為個人資料。
4.1.2 Scene 場景
角色互動展開的特定場景,包括交互的時空背景以及所涉及的人物。具體方法是簡要描述了角色在特定生命時期的經(jīng)歷之一,讓 LLM 根據(jù)經(jīng)歷描述列舉出幾個極有可能發(fā)生的不同場景,輸出限制為生成場景的簡明描述。
4.1.3 Interaction 互動
生成角色的認知過程、話語或動作。所有交互都以純文本表示。將場景擴展到個人之間的詳細交互體驗,提示通過 LLM 結(jié)合角色之間的互動以及目標個人的想法來詳細說明場景。生成的交互由一系列塊表示,每個塊代表特定角色的話語或目標個體的反映。這里僅關(guān)注角色的反應(yīng),而不是所有角色的反應(yīng),以免訓(xùn)練時產(chǎn)生混淆。
4.2 防護
大型語言模型有跨越多個領(lǐng)域的廣泛知識。而過多的知識會破壞表演的可信度,角色可能會無意中表達與角色身份和時代不符的知識。例如,古羅馬人不應(yīng)該會寫程序,文中將這個問題稱為性格幻覺。
當面對超出角色內(nèi)在能力界限的問題時,模型應(yīng)學(xué)會避免提供答案。具體方法是:構(gòu)建一個好奇的角色堅持不懈地向目標角色詢問與角色固有身份相矛盾的知識,角色應(yīng)該表現(xiàn)出無知和困惑。
4.3 上傳經(jīng)驗
對于每個角色,僅使用來自相應(yīng)角色體驗的數(shù)據(jù)來微調(diào)單獨的模型。由于成本限制,只使用小規(guī)模的體驗數(shù)據(jù)集(由大約 1K 2K?~?場景組成)進行微調(diào)。
5 實驗
5.1 數(shù)據(jù)
表 1:角色及其對應(yīng)的建構(gòu)體驗數(shù)據(jù)統(tǒng)計。
5.2 訓(xùn)練
將 LLaMA 7B 作為基礎(chǔ)模型,微調(diào)了每個角色。在每個示例的開頭插入一個元提示。每個示例的提示中都會實例化簡明描述,以提供場景的環(huán)境、時間、地點和相關(guān)人員的背景。附錄 C 中列出了一些培訓(xùn)示例。使用 8 個?×?A100 80GB GPU 訓(xùn)練一名代理大約需要一個小時。
5.3 面試評估
利用模型建立面試場景,旨在探究他們在上述方面的表演能力和潛在缺陷。評估包括每個角色的 100 多個多樣的單輪面試和多輪面試。
單輪面試:一次問模型一個問題,不包括前面問題的對話歷史。
多輪面試:多輪對話,利用 ChatGPT 作為面試官,引導(dǎo) ChatGPT 根據(jù)角色的簡介提出尖銳的問題。如果模型通過說一些沒有太多細節(jié)的話來回避問題,ChatGPT 面試官會提出后續(xù)問題,從而對模型的演技熟練程度進行更深入的評估。
表 2:單輪和多輪訪談收集的問題數(shù)量。
基線:Alpaca 7B,Vicuna 7B 和 ChatGPT。
5.4 主要結(jié)果
圖 4:性格、價值觀、記憶、幻覺和穩(wěn)定性 不同維度的評估結(jié)果。
6 分析
6.1 與角色的一致性
相對于基線模型,角色模型會用他父親如何教育他的記憶和情感來回答,這更接近于真正的人類。文中認為體驗重建和上傳過程有助于構(gòu)建更接近的角色。
6.2 保護場景
少量的保護場景(每個角色少于 100 個場景)有效地緩解了幻覺,而不會對刻畫的其他能力造成干擾。文章來源:http://www.zghlxwxcb.cn/news/detail-791516.html
(文章最后還列出了具體數(shù)據(jù)示例)文章來源地址http://www.zghlxwxcb.cn/news/detail-791516.html
到了這里,關(guān)于論文閱讀_訓(xùn)練大模型用于角色扮演的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!