首先我們來看OpenAI系列模型:
OpenAI 并不只有一個(gè)模型,而是提供了涵蓋文本、碼、對話、語音、圖像領(lǐng)域的一系列模型。
語言類大模型
其中語言類大模型包括: GPT-3、GPT-3.5、GPT-4系列模型。
并且,OpenAI在訓(xùn)練GPT-3的同時(shí)訓(xùn)練了參數(shù)不同、復(fù)雜度各不相同的A、B、C、D四項(xiàng)大模型 (基座模型),用于不同場景的應(yīng)用;其中,A、B、C、D模型的全稱分別是ada(埃達(dá)·洛夫萊斯)、babbage(查爾斯·巴貝奇)、curie(居里夫人)和davinci(達(dá)芬奇),四個(gè)模型并不是GPT-3的微調(diào)模型,而是獨(dú)立訓(xùn)練的四個(gè)模型;四個(gè)模型的參數(shù)規(guī)模和復(fù)雜程度按照A-B-C-D順序依次遞增:雖不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型卻是目前OpenAI大模型生態(tài)中功能最豐富、API種類最多的四個(gè)模型。
為了更好的滿足更多的適用場景訓(xùn)練不同規(guī)模的模型是目前業(yè)內(nèi)的基本共識。
谷歌PaLM2 Models同時(shí)發(fā)布了四項(xiàng)大模型:
Gecko (壁虎) 、Otter(水獺) 、Bison (野牛) 、Unicorn(獨(dú)角獸) ,其中最小的Gecko模型可以在移動(dòng)端運(yùn)行,并計(jì)劃在下一代安卓系統(tǒng)中集成。
圖像多模態(tài)大模型:
- 最新版為OpanAI的 DALL-E(達(dá)利) v2,是DALL-E模型的第二版訓(xùn)練版,能夠根據(jù)描述生成圖像;
- DALL-E模型為基于GPT-3開發(fā)的模型,總共包含120億個(gè)參數(shù),不難看出DALL-E對圖像的理解能力源于大語言模型;
- 那為啥圖像大模型要基于GPT-3來訓(xùn)練呢?OpenAl將大語言模型的理解能力“復(fù)制”到視覺領(lǐng)域的核心方法:將圖像視作一種一種語言,將其轉(zhuǎn)化為Token,并和文本Token一起進(jìn)行訓(xùn)練
語音識別模型:
- 最新版為Whisper v2-large model,是Whisper模型的升級版,能夠執(zhí)行多語言語音識別以及語音翻譯和語言識別;
- Whisper模型是為數(shù)不多的OpenAl的開源模型,該模型通過68萬小時(shí)的多語言和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行的訓(xùn)練,目前提供了原始論文進(jìn)行方法介紹;
- whisper模型可以本地部署,也可以像其他OpenAl大模型一樣通過調(diào)用API進(jìn)行在線使用,并且根據(jù)官網(wǎng)介紹,Whisper在線模型會有額外運(yùn)行速度上的優(yōu)化,通過調(diào)用API進(jìn)行使用,效率更高(當(dāng)然也需要支付一定的費(fèi)用)
文本向量化模型:
- Embedding文本嵌入模型,用于將文本轉(zhuǎn)化為詞向量,即用一個(gè)數(shù)組(向量) 來表示一個(gè)文本,該文本可以是短語、句子或者文章;
- 最新一代Embedding模型是基于ada模型微調(diào)的text-embedding-ada-002模型;
- 通過將文本轉(zhuǎn)化為詞向量,就可以讓計(jì)算機(jī)進(jìn)一步的“讀懂文本”,通過詞向量的計(jì)算和分析和相似度計(jì)算,可以對其背后的文本進(jìn)行搜索、聚類、推薦、異常檢測和分類等;
審查模型:
Moderation模型,旨在檢查內(nèi)容是否符合 OpenAl的使用政策。這
些模型提供了 查找以下類別內(nèi)容的分類功能:仇恨、仇恨/威脅、自殘、性、性/未成年人、暴力和暴力/圖片等。
編程大模型:
- Codex大模型,用GitHub數(shù)十億行代碼訓(xùn)練而成,能夠“讀懂”代碼,并且能夠根據(jù)自然語言描述進(jìn)行代碼創(chuàng)建;
- Codex最擅長Python,同時(shí)精通JavaScript、Go、Perl、 PHP、Ruby、Swift、TypeScript、SaL,甚至 Shell 等十幾種編程語言;
- 該模型發(fā)布于2021年8月10日,目前代碼編寫功能已經(jīng)合并入GPT-3.5,官網(wǎng)顯示該模型為已棄用(deprecated) 狀態(tài),意為后續(xù)不再單獨(dú)維護(hù),但并不表示OpenAl巳放棄編程大模型,相反越來越
多的編程功能被集成到語言大模型中; - 目前該模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAl Service等產(chǎn)品中,用于提供自動(dòng)編程功能支持;
點(diǎn)擊地址:https://platform.openai.com/docs/models/overview在models->overiew到OpenAI官網(wǎng)中查看目前的OpenAI模型大類:
點(diǎn)擊以下網(wǎng)址:https://platform.openai.com/account/rate-limits可在個(gè)人中心一>API速率限制中查看中可以一次性看到目前賬戶可用的全部API
OpenAl APl命名規(guī)則
- 通用模型APl:如GPT-3.5-turbo, GPT-4, ada…
- 停止維護(hù)但仍可使用的AP1:如GPT-3.5-turbo-0301 (3月1號停止維護(hù)),GPT-4-0314 (3月14號停止維護(hù))
- 面向特定功能的微調(diào)模型API:如ada-code-search-code(基于ada微調(diào)的編程大模型),babbage-similarity(基于babbage微調(diào)的的文本相似度檢索模型) …
- 多版本編號模型API:如text-davinci-001(達(dá)芬奇文本模型1號)、text-embedding-ada-002(基于ada的Embedding模型2號)
——————————————————————————————————
學(xué)習(xí)大模型需要掌握什么?
第一部分,需要掌握效果最好、生態(tài)最豐富、功能最齊全的OpenAl發(fā)布的大模型組
第二部分,需要掌握目前中文效果最好、最具潛力、同時(shí)具備多模態(tài)功能的開源大模型一ChatGLM 6B & visualGLM 6B
為什么要學(xué)習(xí)開源大模型?
- 更大的微調(diào)空問:相比在線大模型,開源大模型可以使用更多微調(diào)框架進(jìn)行模型微調(diào),微調(diào)空間更大,更有可能快速完成定制化大模型訓(xùn)練;
- 更加靈活的A應(yīng)用開發(fā):相比封閉的在線模型,開源模型可以更加靈活便捷的嵌入到AI應(yīng)用中,同時(shí)也可以更加方便的搭配其他開源框架進(jìn)行使用,從而實(shí)現(xiàn)更高效率的Al/應(yīng)用開發(fā);
- 更低的資費(fèi)、更安全的數(shù)據(jù)保障:此外,不同于在線大模型需要根據(jù)API調(diào)用情況付費(fèi),開源大模型開源本地部署,僅需支付相應(yīng)算力費(fèi)用即可;此外,數(shù)據(jù)可以直接本地訓(xùn)練模型,無需在線提交數(shù)據(jù)進(jìn)行在線模型微調(diào),數(shù)據(jù)安全也將更有保障;
全球開源大模型性能評估榜單
榜單一:Hugging Face@: Open LLM Leaderboard
地址:https://huggingface.co/spaces/HuggingFaceH4/open_Ilm_leaderboard
Falcon(鷹眼)大模型:
Falcon模型為阿聯(lián)酋阿布扎比創(chuàng)新研究所(TII) 開源的大模型,號稱“史上最強(qiáng)開源大模型”,總共400億參數(shù),模型在1萬億個(gè)高質(zhì)量Token上完成訓(xùn)練,叫能超進(jìn)擁有650億參數(shù)的LLaMA。遺憾的是Falcon并不支持中文。
榜單二:LMSYS組織 (UC伯克利背景): LLM Leaderboard
地址:https://chat.Imsys.org/?arena
通過匿名PK進(jìn)行模型性能比較,同時(shí)納入開源大模型和在線大模型進(jìn)行PK,其中GPT-4排名第一,國內(nèi)清華大學(xué)團(tuán)隊(duì)ChatGLM-6B 模型位列14。該榜單實(shí)時(shí)更新較慢,目前Falcon尚末參賽。
目前沒有評價(jià)大模型能力的太權(quán)威的榜單。
——————————————————————————————————
中文最強(qiáng)大語言模型一 ChatGLM 130B
- ChatGLM模型是由清華大學(xué)團(tuán)隊(duì)開發(fā)的大語言模型,該模型借鑒了ChatGPT 的設(shè)計(jì)思路,在千億基座模型 GLM-130B 中注入了代碼預(yù)訓(xùn)練,通過有監(jiān)督微調(diào) (Supervised Fine-Tuning) 等技術(shù)實(shí)現(xiàn)人類意圖對齊。2022年11月,斯坦福大學(xué)大模型中心對全球30個(gè)主流大模型進(jìn)行了全方位的評測,GLM-130B 是亞洲唯一入選的大模型。在與 OpenAl、谷歌大腦、微軟、英偉達(dá)、臉書的各大模型對比中,評測報(bào)告顯示 GLM-130B 在準(zhǔn)確性和惡意性指標(biāo)上與 GPT-3 175B(davinci) 接近或持平。
- 論文地址:https://openreview.net/pdf?id=-Aw0rrrPUF
更加精簡的低門檻大模型:ChatGLM 6B
清華大學(xué)團(tuán)隊(duì)同時(shí)開源 ChatGLM-6B 模型。ChatGLM-6B 是一個(gè)具有62億參數(shù)的中英雙語語言模型。通過使用與 ChatGLM (chatglm.cn)相同的技術(shù),ChatGLM-6B 初具中文問答和對話功能,并支持在單張 2060s 上進(jìn)行推理使用。具體來說,ChatGLM-6B 有如下特點(diǎn):
- 充分的中英雙語預(yù)訓(xùn)練:ChatGLM-6B 在 1:1比例的中英語料上訓(xùn)練了1T的token 量,兼具雙語能力;
- 較低的部署門檻:FP16 精度下,ChatGLM-6B 需要至少 13GB 的顯存進(jìn)行推理,結(jié)合模型量化技術(shù),這一需求可以進(jìn)一步降低到 10GB (INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消費(fèi)級顯卡上;
ChatGLM 6B的硬件要求:
- 其中,F(xiàn)P16指的是高精度模式,該模式下推理(即模型運(yùn)行) 需要至少13G顯存,微調(diào)需要至少14G顯存;
- INT4、INT8則是量化模式,所謂量化模式,指的是模型會限制參數(shù)的精度,INT4表示保留4位參數(shù)精度,INT8則表示保留8位參數(shù)精度,此時(shí)相應(yīng)的推理顯存占用和微調(diào)顯存占用都會明顯滅少。最低精度INT4模式下,可以在單卡2060上運(yùn)行,也是目前硬件要求最低的開源大模型;
- 根據(jù)實(shí)際測試,在高精度模式下,多輪對話最低顯存占用為20G,微調(diào)顯存占用為22G左右;
ChatGLM 6B豐富的開源生態(tài):
微調(diào)框架:ChatGLM 6B + P- Tuning微調(diào),項(xiàng)目地址: https://github.com/ THUDM/ChatGLM-6B/blob/main/ptuning/README.md
微調(diào)框架:ChatGLM 6B + LoRA微調(diào),項(xiàng)目地址: https://github.com/ mymusise/ChatGLM-Tuning
本地知識庫:ChatGLM 6B + LangChain,項(xiàng)目地址: https://github.com/ imClumsyPanda/langchain-ChatGLM
多輪對話前端:ChatGLM 6B多輪對話的Web UI展示,項(xiàng)目地址: https:// github.com/Akegarasu/ChatGLM-webui
——————————————————————————————————
基于ChatGLM的多模態(tài)大模型 VisualGLM 6B
VisualGLM-6B 是一個(gè)開源的,支持圖像、中文和英文的多模態(tài)對話語言模型, 語言模型基于 ChatGLM-6B,具有 62 億參數(shù);圖像部分通過訓(xùn)練 BLIP2- Qformer 構(gòu)建起視覺模型與語言模型的橋梁,整體模型共78億參數(shù)。 VisualGLM-6B 依靠來自于 CogView 數(shù)據(jù)集的30M高質(zhì)量中文圖文對,與300M 經(jīng)過篩選的英文圖文對進(jìn)行預(yù)訓(xùn)練,中英文權(quán)重相同。該訓(xùn)練方式較好地將視覺 信息對?到ChatGLM的語義空間;之后的微調(diào)階段,模型在?視覺問答數(shù)據(jù)上訓(xùn) 練,以生成符合人類偏好的答案。
VisualGLM 6B部分樣例 項(xiàng)目地址:
https://github.com/THUDM/VisualGLM-6B
VisualGLM 6B VS Dall·E模型實(shí)現(xiàn)思路區(qū)別
Dall·E:將圖像視作一種語言,將其轉(zhuǎn)化為離散化的Token并進(jìn)行訓(xùn)練,優(yōu)勢在 于能夠非常詳細(xì)的描述一張圖片,但缺點(diǎn)在于圖像的Token利用率較低,需要 1000以上的Token才能描述一張256分辨率的圖; VisualGLM:考慮到人類在認(rèn)識圖片的時(shí)候,往往只對少量視覺語意信息感興 趣,因此可以不用將整個(gè)圖片全部離散化為圖片,只將圖片特征對其到預(yù)訓(xùn)練 語言模型即可,這也是BLIP-2的視覺語言與訓(xùn)練方法實(shí)現(xiàn)策略。優(yōu)勢在于能夠 充分語言模型,缺點(diǎn)在于會缺失圖像部分底層信息(細(xì)節(jié)信息);
醫(yī)學(xué)影像診斷大模型:XrayGLM 6B
項(xiàng)目地址:https://github.com/WangRongsheng/XrayGLM文章來源:http://www.zghlxwxcb.cn/news/detail-614268.html
基于VisualGLM模型,在UI-XRay醫(yī)學(xué)診斷報(bào)告數(shù)據(jù)集上進(jìn)行微調(diào)而來; 報(bào)告翻譯借助OpenAI GPT模型完成翻譯,微調(diào)框架為LoRA;
——————————————————————————————————文章來源地址http://www.zghlxwxcb.cn/news/detail-614268.html
中文大模型學(xué)習(xí)首選——ChatGLM 6B
- 低?檻上手使用,最低2080Ti即可運(yùn)行;
- 中英雙語大模型,其中中文提示效果更佳;
- 較為豐富的對話UI、微調(diào)、AI開發(fā)項(xiàng)目生態(tài);
- 大神云集的項(xiàng)目開發(fā)和維護(hù)團(tuán)隊(duì);
- 率先提出多模態(tài)大模型VisualGLM;
- 非?;钴S的開源社區(qū),已經(jīng)越來越多的微調(diào)和實(shí)踐應(yīng)用場景,未來發(fā)展極具潛力;
到了這里,關(guān)于OpenAI大模型生態(tài)與ChatGLM ||學(xué)習(xí)大模型我們需要掌握些什么?的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!