Stable Code 3B: Coding on the Edge
要點(diǎn):
- Stable Code 3B 是一個(gè)包含 30 億個(gè)參數(shù)的大型語言模型 (LLM),可實(shí)現(xiàn)準(zhǔn)確且響應(yīng)靈敏的代碼補(bǔ)全,其水平與大 2.5 倍的 CodeLLaMA 7b 等模型相當(dāng)。
- 即使在 MacBook Air 等普通筆記本電腦上沒有 GPU,也可以離線運(yùn)行。
1月16日,Stability AI宣布 2024 年第一個(gè)大型語言模型版本:stable-code-3b。這個(gè)新的 LLM 是之前發(fā)布的 stable-code Alpha 3B 的后續(xù)版本,也是第一個(gè)主要的穩(wěn)定代碼版本,提供了新的最先進(jìn)的模型,專為具有多種附加功能的代碼完成而設(shè)計(jì)。
與 CodeLLaMA 7b 相比,Stable Code 3B 體積縮小了 60%,同時(shí)跨編程語言具有相似的高級(jí)性能?;陬A(yù)先存在的 Stable LM 3B 基礎(chǔ)模型(在 4 萬億個(gè)自然語言數(shù)據(jù)上進(jìn)行訓(xùn)練),Stable Code 進(jìn)一步接受了特定于軟件工程的訓(xùn)練數(shù)據(jù),包括代碼。該模型的緊湊尺寸使其可以在現(xiàn)代筆記本電腦的邊緣實(shí)時(shí)私下運(yùn)行,即使是那些沒有專用 GPU 的筆記本電腦。
Stable Code 3B 跨多種語言提供更多功能和顯著更好的性能,并具有額外的優(yōu)勢(shì),例如支持中間填充功能 (FIM) 和擴(kuò)展的上下文大小。Stable Code 作為基礎(chǔ)在最多 16,384 個(gè) token 的序列上進(jìn)行訓(xùn)練,但遵循與 CodeLlama 類似的方法,實(shí)施旋轉(zhuǎn)嵌入,可選擇允許修改最多 1,000,000 個(gè)旋轉(zhuǎn)基,進(jìn)一步將模型的上下文長(zhǎng)度擴(kuò)展至 100k 個(gè) token。
Stable Code 3B 接受了 18 種編程語言的訓(xùn)練(根據(jù) [2023 年 StackOverflow 開發(fā)人員調(diào)查] 選擇)) 并展示了跨多種測(cè)試編程語言的 MultiPL-E 指標(biāo)的最先進(jìn)性能(與類似大小的模型相比)。
性能比較
Stable Code 完成 3B 與 CodeLLama 7B 的并排比較
Training見解
在訓(xùn)練流程由類似于 Codellama 的多階段過程組成。從對(duì)自然語言數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的 LM 開始,在本例中為 StableLM-3B-4e1t,然后進(jìn)行無監(jiān)督微調(diào)多個(gè)代碼和與代碼相關(guān)的數(shù)據(jù)集,包括 CommitPack、GitHub Issues、StarCoder 和其他數(shù)學(xué)數(shù)據(jù)集。在第二步中,根據(jù) CodeLLama 中建議的基本修改,進(jìn)一步使用 16,384 個(gè)標(biāo)記的更長(zhǎng)序列對(duì)模型進(jìn)行微調(diào)。新的穩(wěn)定代碼模型還支持 Flash Attention 2 并且可供使用。文章來源:http://www.zghlxwxcb.cn/news/detail-824826.html
對(duì)數(shù)據(jù)和模型的進(jìn)一步了解,可以參考Stability AI的模型卡中找到。Stability AI將發(fā)布一份完整的技術(shù)報(bào)告,其中包含更多詳細(xì)信息和刪減內(nèi)容,以便對(duì)社區(qū)更加透明和開放。文章來源地址http://www.zghlxwxcb.cn/news/detail-824826.html
到了這里,關(guān)于Stability AI發(fā)布全新代碼模型Stable Code 3B的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!