LLM
對于LLM,我現在重點關注在這幾個方面:
開源且可私有化部署的代碼生成模型:
因為大部分軟件企業(yè)對于安全都很重視,文檔、數據、代碼一般都會盡量避免被泄露。所以很難使用類似Copilot或者OpenAI的Bito這種需要連到互聯網上的服務。如果能有可以私有化部署的代碼生成模型,就可以很好的解決這個問題?,F在有以下一些開源的模型:
- Saleforce的CodeT5
https://github.com/salesforce/CodeT5
2021年9月,Saleforce公布了CodeT5模型。目前,Saleforce公開了4個版本的CodeT5模型,均開源可獲得。
- CodeT5-small:0.6億參數
- CodeT5-base:2.2億參數
- CodeT5-large:7.7億參數
- CodeT5-large-ntp-py:7.7億參數
- Saleforce的CodeGen/CodeGen2
https://github.com/salesforce/CodeGen
2022年5月,Saleforce再次發(fā)布了一個新的編程模型CodeGen。該模型是一系列模型,參數有4個版本:3.5億、20億、60億和160億。而訓練的數據也有三個:
- nl版本:基于Pile數據訓練
- multi版本:在nl基礎上繼續(xù)在多個編程語言組成的數據集上訓練
- mono版本:繼續(xù)在multi版本上基于Python代碼數據訓練
上述12個模型全部在HuggingFace上開源。
2023年5月3日,Saleforce開源第二代CodeGen:CodeGen2發(fā)布。該系列模型包含4個版本,分別是10億參數、37億參數、70億參數和160億參數四個版本。CodeGen2可以進行infilling,并且支持更多的編程語言。這里的infilling應該是在插入代碼的含義。
CodeGen2也是全部開源,其中160億參數版本開源文件大小66GB左右~
- MetaAI的InCoder
GitHub - dpfried/incoder: Generative model for code infilling and synthesis
InCoder: A Generative Model for Code Infilling and Synthesis
InCoder是MetaAI在2022年4月發(fā)布的一個編程大模型。模型訓練數據僅包含來自在線來源(如GitHub、GitLab和StackOverflow)的開放許可代碼(Apache 2.0、MIT、BSD-2和BSD-3許可),其中重點是Python和JavaScript,但總共包括28種語言 - 總共約200GB的數據。公開的模型預訓練結果共2個版本,一個是67億參數一個是13億參數。
盡管InCoder的訓練數據都是開放許可代碼數據,但是MetaAI的InCoder模型確實開源的不可商用的!
- 國內的智譜AI開發(fā)的CodeGeeX
https://codegeex.cn/
https://github.com/THUDM/CodeGeeX
CodeGeeX - a Hugging Face Space by THUDM
CodeGeeX是一個具有130億參數的多編程語言代碼生成預訓練模型。CodeGeeX采用華為MindSpore框架實現,在鵬城實驗室“鵬城云腦II”中的192個節(jié)點(共1536個國產昇騰910 AI處理器)上訓練而成。截至2022年6月22日,CodeGeeX歷時兩個月在20多種編程語言的代碼語料庫(>8500億Token)上預訓練得到。CodeGeeX有以下特點:
- 高精度代碼生成:支持生成Python、C++、Java、JavaScript和Go等多種主流編程語言的代碼,在HumanEval-X代碼生成任務上取得47%~60%求解率,較其他開源基線模型有更佳的平均性能。代碼生成示例
- 跨語言代碼翻譯:支持代碼片段在不同編程語言間進行自動翻譯轉換,翻譯結果正確率高,在HumanEval-X代碼翻譯任務上超越了其它基線模型。代碼翻譯示例
- 自動編程插件:CodeGeeX插件現已上架VSCode插件市場(完全免費),用戶可以通過其強大的少樣本生成能力,自定義代碼生成風格和能力,更好輔助代碼編寫。插件下載
- 模型跨平臺開源: 所有代碼和模型權重開源開放,用作研究用途。CodeGeeX同時支持昇騰和英偉達平臺,可在單張昇騰910或英偉達V100/A100上實現推理。申請模型權重
全新多編程語言評測基準HumanEval-X:HumanEval-X是第一個支持功能正確性評測的多語言、多任務的基準,包含820個人工編寫的高質量代碼生成題目、測試用例與參考答案,覆蓋5種編程語言(Python、C++、Java、JavaScript、Go),支持代碼生成與代碼翻譯能力的評測。如何使用
在HumanEval-X代碼生成任務上,與其它開源基線模型相比,CodeGeeX取得了最佳的平均性能。
Replit的Replit Code
模型:replit/replit-code-v1-3b · Hugging Face
2023年5月3日,Replit Code V1-3b正式發(fā)布,并在HuggingFace上開源。Replit-finetuned-v1-3b是Replit開發(fā)的一個編程大模型,與Replit-code-v1-3b一同宣布。官方確定Replit-code-v1-3b會是一個開源的模型,但是沒有明確說Replit-finetuned-v1-3b是否開源。
BigCode的StarCoder/StarCoderBase
在5月4日,BigCoder在HuggingFace的支持下發(fā)布了開源代碼生成模型Starcoder。BigCode是由Hugging Face和ServiceNow共同領導的開放科學合作項目,致力于負責任地開發(fā)大型代碼語言模型。StarCoder 和 StarCoderBase 是代碼的大型語言模型 (Code LLM),使用來自 GitHub 的許可數據進行訓練。具體請看我的文章:
北方的郎:Starcoder:愿源碼與你同在, 最新的開源代碼生成LLM來了
可商用的開源LLM
訓練LLM要花很多資源,例如MPT-7B訓練的時候盡管采取了很多降低資源需求的技術,仍然要在440 GPU上訓練了9.5 天花費了20萬美元。而在大模型基礎上進行微調的費用就小很多。
所以對于可商用的LLM就有很大的需求,而且有很好的應用前景,例如在開源LLM基礎上訓練某個大企業(yè)的客服模型等。很高興看到近期MPT和RedPajama分別發(fā)布了可商用的LLM模型。
北方的郎:MPT-7B:開源,商業(yè)可用,性能堪比LLaMA-7B的LLM新成員
北方的郎:不止是數據,RedPajama的模型也出來了,RedPajama 7B, 一個開源的高效LLM模型
LLM as a Controller
我感覺現在LLM的一個重要趨勢就是LLM as a Controller(這個叫法是我自己拍腦袋想的,不知道學術界是怎么稱呼的),就是把LLM放在前面作為控制器,其他專業(yè)模型作為工具,實現1+1>2更好的解決問題。HuggingGPT就是一個很好的嘗試。
北方的郎:HugingGPT 模型整合,賈維斯來了
其他LLM進展:
其他的模型也都各有特色
北方的郎:HuggingChat來了-各種Chat這么火Huggingface終于也忍不住了
北方的郎:IBM也下場LLM了,低成本、高效率的單峰駝Dromedary來了
AI繪畫:
Stable Diffusion
主流的開源模型還是Stable Diffusion,因為它的生態(tài)非常豐富,各種Checkpoint和Lora都很多,可以生成非常漂亮的圖。
北方的郎:深入淺出講解Stable Diffusion原理,新手也能看明白
DeepFloyd IF
對于需要精確控制的圖片,例如需要顯示特定的文字,因為Stable Diffusion使用的是潛空間(latent space),所以有些力有不逮。這時就可以使用DeepFloyd IF,它復現了Google的Imagen(Text-to-Image Diffusion Models),采用像素空間,效果會更好。例如:
prompt:landscape of newyork with words "hello"
Midjourney
Stable Diffusion
這個實驗只有DeepFloyd IF正確顯示了文字。
北方的郎:新的生圖模型DeepFloyd IF來了,可以拳打Stable Diffusion,腳踢Dall-E?
多模態(tài)
MiniGPT4:
北方的郎:MiniGPT-4來了、脫胎于LLama、開源且好用
LLaVA:
北方的郎:找GPT-4作老師的LLaVA多模態(tài)大模型,學的很不錯
其他多模態(tài)模型:
北方的郎:玩LLM和StableDiffusion常說的LoRA到底是什么
北方的郎:DINOv2: A Self-supervised Vision Transformer Model
北方的郎:繼針對圖像的分割一切之后,針對視頻的Track-Anything(追蹤一切)來了
演進路徑:
LLM進化樹:
很高興有人做了這張圖,讓大家可以對LLM的發(fā)展一目了然。
北方的郎:大語言模型(LLM)的進化樹,學習LLM看明白這一張圖就夠了
我自己的一些總結和感想:
北方的郎:Transformer類模型應用情況的簡單綜述
北方的郎:AI內容檢測工具評測集合
北方的郎:常用ChatGPT類模型的總結
北方的郎:從GPT-1到GPT-4,GPT系列模型詳解
北方的郎:數據即模型,模型即數據文章來源:http://www.zghlxwxcb.cn/news/detail-502745.html
感覺有幫助的朋友,歡迎贊同、關注、分享三連。^-^文章來源地址http://www.zghlxwxcb.cn/news/detail-502745.html
到了這里,關于近期關于AIGC方面的學習筆記和思路整理的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!