國外團隊從GPT3.5提取大規(guī)模數(shù)據(jù)完成本地機器人訓(xùn)練,并開源項目源碼和模型支持,普通在筆記上運行chatgpt。下面是他們分享的:收集到的數(shù)據(jù)、數(shù)據(jù)管理程序、訓(xùn)練代碼和最終模型,以促進開放研究和可重復(fù)性。
1、數(shù)據(jù)收集和管理
在 2023 年 3 月 20 日至 2023 年 3 月 26 日期間,該團隊使用 GPT-3.5-Turbo OpenAI API 收集了大約 100 萬個提示-響應(yīng)對。為此,我們首先通過利用三個公開可用的數(shù)據(jù)集收集了不同的問題提示樣本:
? The unified chip2 subset of LAION OIG.
? Coding questions with a random sub-sample of Stackoverflow Questions(用 Stackoverflow 問題的隨機子樣本來編碼問
題)
? Instruction-tuning with a sub-sample of Bigscience/P3(使用 Big- science/P3 的子樣本進行指令調(diào)優(yōu))文章來源:http://www.zghlxwxcb.cn/news/detail-420307.html
他們選擇在斯坦福羊駝項目(Taori et al., 2023)的評論基礎(chǔ)上,將大量注意力放在數(shù)據(jù)準備和管理上。在收集了提示生成對的初始數(shù)據(jù)集之后,我
們將數(shù)據(jù)加載到 Atlas 中進行數(shù)據(jù)管理和清理。使用 Atlas,我們刪除了所有 GPT-3.5-Turbo 無法響應(yīng)提示并產(chǎn)生畸形輸出的例子。這將他們的示例總數(shù)減少到 806,199 對高質(zhì)量的提示生成對。接下來,他們決定從最終訓(xùn)練數(shù)據(jù)集中移除整個Bigscience/P3 子集,文章來源地址http://www.zghlxwxcb.cn/news/detail-420307.html
到了這里,關(guān)于本地構(gòu)建自己的chatgpt已成為可能,國外團隊從GPT3.5提取大規(guī)模數(shù)據(jù)完成本地機器人訓(xùn)練,并開源項目源碼和模型支持普通在筆記上運行chatgpt的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!