国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

OpenAI大模型生態(tài)與ChatGLM ||學(xué)習(xí)大模型我們需要掌握些什么?

這篇具有很好參考價(jià)值的文章主要介紹了OpenAI大模型生態(tài)與ChatGLM ||學(xué)習(xí)大模型我們需要掌握些什么?。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

首先我們來看OpenAI系列模型:
OpenAI 并不只有一個(gè)模型,而是提供了涵蓋文本、碼、對話、語音、圖像領(lǐng)域的一系列模型。

語言類大模型

其中語言類大模型包括: GPT-3、GPT-3.5、GPT-4系列模型。
并且,OpenAI在訓(xùn)練GPT-3的同時(shí)訓(xùn)練了參數(shù)不同、復(fù)雜度各不相同的A、B、C、D四項(xiàng)大模型 (基座模型),用于不同場景的應(yīng)用;其中,A、B、C、D模型的全稱分別是ada(埃達(dá)·洛夫萊斯)、babbage(查爾斯·巴貝奇)、curie(居里夫人)和davinci(達(dá)芬奇),四個(gè)模型并不是GPT-3的微調(diào)模型,而是獨(dú)立訓(xùn)練的四個(gè)模型;四個(gè)模型的參數(shù)規(guī)模和復(fù)雜程度按照A-B-C-D順序依次遞增:雖不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型卻是目前OpenAI大模型生態(tài)中功能最豐富、API種類最多的四個(gè)模型。
為了更好的滿足更多的適用場景訓(xùn)練不同規(guī)模的模型是目前業(yè)內(nèi)的基本共識。
谷歌PaLM2 Models同時(shí)發(fā)布了四項(xiàng)大模型:
Gecko (壁虎) 、Otter(水獺) 、Bison (野牛) 、Unicorn(獨(dú)角獸) ,其中最小的Gecko模型可以在移動(dòng)端運(yùn)行,并計(jì)劃在下一代安卓系統(tǒng)中集成。

圖像多模態(tài)大模型:

  • 最新版為OpanAI的 DALL-E(達(dá)利) v2,是DALL-E模型的第二版訓(xùn)練版,能夠根據(jù)描述生成圖像;
  • DALL-E模型為基于GPT-3開發(fā)的模型,總共包含120億個(gè)參數(shù),不難看出DALL-E對圖像的理解能力源于大語言模型;
  • 那為啥圖像大模型要基于GPT-3來訓(xùn)練呢?OpenAl將大語言模型的理解能力“復(fù)制”到視覺領(lǐng)域的核心方法:將圖像視作一種一種語言,將其轉(zhuǎn)化為Token,并和文本Token一起進(jìn)行訓(xùn)練

語音識別模型:

  • 最新版為Whisper v2-large model,是Whisper模型的升級版,能夠執(zhí)行多語言語音識別以及語音翻譯和語言識別;
  • Whisper模型是為數(shù)不多的OpenAl的開源模型,該模型通過68萬小時(shí)的多語言和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行的訓(xùn)練,目前提供了原始論文進(jìn)行方法介紹;
  • whisper模型可以本地部署,也可以像其他OpenAl大模型一樣通過調(diào)用API進(jìn)行在線使用,并且根據(jù)官網(wǎng)介紹,Whisper在線模型會有額外運(yùn)行速度上的優(yōu)化,通過調(diào)用API進(jìn)行使用,效率更高(當(dāng)然也需要支付一定的費(fèi)用)

文本向量化模型:

  • Embedding文本嵌入模型,用于將文本轉(zhuǎn)化為詞向量,即用一個(gè)數(shù)組(向量) 來表示一個(gè)文本,該文本可以是短語、句子或者文章;
  • 最新一代Embedding模型是基于ada模型微調(diào)的text-embedding-ada-002模型;
  • 通過將文本轉(zhuǎn)化為詞向量,就可以讓計(jì)算機(jī)進(jìn)一步的“讀懂文本”,通過詞向量的計(jì)算和分析和相似度計(jì)算,可以對其背后的文本進(jìn)行搜索、聚類、推薦、異常檢測和分類等;

審查模型:

Moderation模型,旨在檢查內(nèi)容是否符合 OpenAl的使用政策。這
些模型提供了 查找以下類別內(nèi)容的分類功能:仇恨、仇恨/威脅、自殘、性、性/未成年人、暴力和暴力/圖片等。

編程大模型:

  • Codex大模型,用GitHub數(shù)十億行代碼訓(xùn)練而成,能夠“讀懂”代碼,并且能夠根據(jù)自然語言描述進(jìn)行代碼創(chuàng)建;
  • Codex最擅長Python,同時(shí)精通JavaScript、Go、Perl、 PHP、Ruby、Swift、TypeScript、SaL,甚至 Shell 等十幾種編程語言;
  • 該模型發(fā)布于2021年8月10日,目前代碼編寫功能已經(jīng)合并入GPT-3.5,官網(wǎng)顯示該模型為已棄用(deprecated) 狀態(tài),意為后續(xù)不再單獨(dú)維護(hù),但并不表示OpenAl巳放棄編程大模型,相反越來越
    多的編程功能被集成到語言大模型中;
  • 目前該模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAl Service等產(chǎn)品中,用于提供自動(dòng)編程功能支持;

點(diǎn)擊地址:https://platform.openai.com/docs/models/overview在models->overiew到OpenAI官網(wǎng)中查看目前的OpenAI模型大類:
OpenAI大模型生態(tài)與ChatGLM ||學(xué)習(xí)大模型我們需要掌握些什么?,大模型,大模型,OpenAI,ChatGLM
點(diǎn)擊以下網(wǎng)址:https://platform.openai.com/account/rate-limits可在個(gè)人中心一>API速率限制中查看中可以一次性看到目前賬戶可用的全部API

OpenAl APl命名規(guī)則

  • 通用模型APl:如GPT-3.5-turbo, GPT-4, ada…
  • 停止維護(hù)但仍可使用的AP1:如GPT-3.5-turbo-0301 (3月1號停止維護(hù)),GPT-4-0314 (3月14號停止維護(hù))
  • 面向特定功能的微調(diào)模型API:如ada-code-search-code(基于ada微調(diào)的編程大模型),babbage-similarity(基于babbage微調(diào)的的文本相似度檢索模型) …
  • 多版本編號模型API:如text-davinci-001(達(dá)芬奇文本模型1號)、text-embedding-ada-002(基于ada的Embedding模型2號)

——————————————————————————————————

學(xué)習(xí)大模型需要掌握什么?

第一部分,需要掌握效果最好、生態(tài)最豐富、功能最齊全的OpenAl發(fā)布的大模型組
第二部分,需要掌握目前中文效果最好、最具潛力、同時(shí)具備多模態(tài)功能的開源大模型一ChatGLM 6B & visualGLM 6B

為什么要學(xué)習(xí)開源大模型?

  • 更大的微調(diào)空問:相比在線大模型,開源大模型可以使用更多微調(diào)框架進(jìn)行模型微調(diào),微調(diào)空間更大,更有可能快速完成定制化大模型訓(xùn)練;
  • 更加靈活的A應(yīng)用開發(fā):相比封閉的在線模型,開源模型可以更加靈活便捷的嵌入到AI應(yīng)用中,同時(shí)也可以更加方便的搭配其他開源框架進(jìn)行使用,從而實(shí)現(xiàn)更高效率的Al/應(yīng)用開發(fā);
  • 更低的資費(fèi)、更安全的數(shù)據(jù)保障:此外,不同于在線大模型需要根據(jù)API調(diào)用情況付費(fèi),開源大模型開源本地部署,僅需支付相應(yīng)算力費(fèi)用即可;此外,數(shù)據(jù)可以直接本地訓(xùn)練模型,無需在線提交數(shù)據(jù)進(jìn)行在線模型微調(diào),數(shù)據(jù)安全也將更有保障;

全球開源大模型性能評估榜單

榜單一:Hugging Face@: Open LLM Leaderboard
地址:https://huggingface.co/spaces/HuggingFaceH4/open_Ilm_leaderboard

Falcon(鷹眼)大模型:

Falcon模型為阿聯(lián)酋阿布扎比創(chuàng)新研究所(TII) 開源的大模型,號稱“史上最強(qiáng)開源大模型”,總共400億參數(shù),模型在1萬億個(gè)高質(zhì)量Token上完成訓(xùn)練,叫能超進(jìn)擁有650億參數(shù)的LLaMA。遺憾的是Falcon并不支持中文。

榜單二:LMSYS組織 (UC伯克利背景): LLM Leaderboard
地址:https://chat.Imsys.org/?arena

通過匿名PK進(jìn)行模型性能比較,同時(shí)納入開源大模型和在線大模型進(jìn)行PK,其中GPT-4排名第一,國內(nèi)清華大學(xué)團(tuán)隊(duì)ChatGLM-6B 模型位列14。該榜單實(shí)時(shí)更新較慢,目前Falcon尚末參賽。

目前沒有評價(jià)大模型能力的太權(quán)威的榜單。

——————————————————————————————————

中文最強(qiáng)大語言模型一 ChatGLM 130B

  • ChatGLM模型是由清華大學(xué)團(tuán)隊(duì)開發(fā)的大語言模型,該模型借鑒了ChatGPT 的設(shè)計(jì)思路,在千億基座模型 GLM-130B 中注入了代碼預(yù)訓(xùn)練,通過有監(jiān)督微調(diào) (Supervised Fine-Tuning) 等技術(shù)實(shí)現(xiàn)人類意圖對齊。2022年11月,斯坦福大學(xué)大模型中心對全球30個(gè)主流大模型進(jìn)行了全方位的評測,GLM-130B 是亞洲唯一入選的大模型。在與 OpenAl、谷歌大腦、微軟、英偉達(dá)、臉書的各大模型對比中,評測報(bào)告顯示 GLM-130B 在準(zhǔn)確性和惡意性指標(biāo)上與 GPT-3 175B(davinci) 接近或持平。
  • 論文地址:https://openreview.net/pdf?id=-Aw0rrrPUF

更加精簡的低門檻大模型:ChatGLM 6B

清華大學(xué)團(tuán)隊(duì)同時(shí)開源 ChatGLM-6B 模型。ChatGLM-6B 是一個(gè)具有62億參數(shù)的中英雙語語言模型。通過使用與 ChatGLM (chatglm.cn)相同的技術(shù),ChatGLM-6B 初具中文問答和對話功能,并支持在單張 2060s 上進(jìn)行推理使用。具體來說,ChatGLM-6B 有如下特點(diǎn):

  • 充分的中英雙語預(yù)訓(xùn)練:ChatGLM-6B 在 1:1比例的中英語料上訓(xùn)練了1T的token 量,兼具雙語能力;
  • 較低的部署門檻:FP16 精度下,ChatGLM-6B 需要至少 13GB 的顯存進(jìn)行推理,結(jié)合模型量化技術(shù),這一需求可以進(jìn)一步降低到 10GB (INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消費(fèi)級顯卡上;

ChatGLM 6B的硬件要求:
OpenAI大模型生態(tài)與ChatGLM ||學(xué)習(xí)大模型我們需要掌握些什么?,大模型,大模型,OpenAI,ChatGLM

  • 其中,F(xiàn)P16指的是高精度模式,該模式下推理(即模型運(yùn)行) 需要至少13G顯存,微調(diào)需要至少14G顯存;
  • INT4、INT8則是量化模式,所謂量化模式,指的是模型會限制參數(shù)的精度,INT4表示保留4位參數(shù)精度,INT8則表示保留8位參數(shù)精度,此時(shí)相應(yīng)的推理顯存占用和微調(diào)顯存占用都會明顯滅少。最低精度INT4模式下,可以在單卡2060上運(yùn)行,也是目前硬件要求最低的開源大模型;
  • 根據(jù)實(shí)際測試,在高精度模式下,多輪對話最低顯存占用為20G,微調(diào)顯存占用為22G左右;

ChatGLM 6B豐富的開源生態(tài)
微調(diào)框架:ChatGLM 6B + P- Tuning微調(diào),項(xiàng)目地址: https://github.com/ THUDM/ChatGLM-6B/blob/main/ptuning/README.md

微調(diào)框架:ChatGLM 6B + LoRA微調(diào),項(xiàng)目地址: https://github.com/ mymusise/ChatGLM-Tuning

本地知識庫:ChatGLM 6B + LangChain,項(xiàng)目地址: https://github.com/ imClumsyPanda/langchain-ChatGLM

多輪對話前端:ChatGLM 6B多輪對話的Web UI展示,項(xiàng)目地址: https:// github.com/Akegarasu/ChatGLM-webui
——————————————————————————————————

基于ChatGLM的多模態(tài)大模型 VisualGLM 6B

VisualGLM-6B 是一個(gè)開源的,支持圖像、中文和英文的多模態(tài)對話語言模型, 語言模型基于 ChatGLM-6B,具有 62 億參數(shù);圖像部分通過訓(xùn)練 BLIP2- Qformer 構(gòu)建起視覺模型與語言模型的橋梁,整體模型共78億參數(shù)。 VisualGLM-6B 依靠來自于 CogView 數(shù)據(jù)集的30M高質(zhì)量中文圖文對,與300M 經(jīng)過篩選的英文圖文對進(jìn)行預(yù)訓(xùn)練,中英文權(quán)重相同。該訓(xùn)練方式較好地將視覺 信息對?到ChatGLM的語義空間;之后的微調(diào)階段,模型在?視覺問答數(shù)據(jù)上訓(xùn) 練,以生成符合人類偏好的答案。

VisualGLM 6B部分樣例 項(xiàng)目地址:
https://github.com/THUDM/VisualGLM-6B

VisualGLM 6B VS Dall·E模型實(shí)現(xiàn)思路區(qū)別

Dall·E:將圖像視作一種語言,將其轉(zhuǎn)化為離散化的Token并進(jìn)行訓(xùn)練,優(yōu)勢在 于能夠非常詳細(xì)的描述一張圖片,但缺點(diǎn)在于圖像的Token利用率較低,需要 1000以上的Token才能描述一張256分辨率的圖; VisualGLM:考慮到人類在認(rèn)識圖片的時(shí)候,往往只對少量視覺語意信息感興 趣,因此可以不用將整個(gè)圖片全部離散化為圖片,只將圖片特征對其到預(yù)訓(xùn)練 語言模型即可,這也是BLIP-2的視覺語言與訓(xùn)練方法實(shí)現(xiàn)策略。優(yōu)勢在于能夠 充分語言模型,缺點(diǎn)在于會缺失圖像部分底層信息(細(xì)節(jié)信息);

醫(yī)學(xué)影像診斷大模型:XrayGLM 6B

項(xiàng)目地址:https://github.com/WangRongsheng/XrayGLM

基于VisualGLM模型,在UI-XRay醫(yī)學(xué)診斷報(bào)告數(shù)據(jù)集上進(jìn)行微調(diào)而來; 報(bào)告翻譯借助OpenAI GPT模型完成翻譯,微調(diào)框架為LoRA;
——————————————————————————————————文章來源地址http://www.zghlxwxcb.cn/news/detail-614268.html

中文大模型學(xué)習(xí)首選——ChatGLM 6B

  • 低?檻上手使用,最低2080Ti即可運(yùn)行;
  • 中英雙語大模型,其中中文提示效果更佳;
  • 較為豐富的對話UI、微調(diào)、AI開發(fā)項(xiàng)目生態(tài);
  • 大神云集的項(xiàng)目開發(fā)和維護(hù)團(tuán)隊(duì);
  • 率先提出多模態(tài)大模型VisualGLM;
  • 非?;钴S的開源社區(qū),已經(jīng)越來越多的微調(diào)和實(shí)踐應(yīng)用場景,未來發(fā)展極具潛力;

到了這里,關(guān)于OpenAI大模型生態(tài)與ChatGLM ||學(xué)習(xí)大模型我們需要掌握些什么?的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 為什么我們需要去中心化存儲?

    為什么我們需要去中心化存儲?

    為什么我們需要去中心化存儲? 我們的社會正處于前所未有的信息大爆炸時(shí)代,未來將是數(shù)據(jù)成為主要生產(chǎn)要素的數(shù)字時(shí)代,而 Web3 也不外乎于此,作為數(shù)據(jù)解決方案——去中心化存儲,不僅是區(qū)塊鏈技術(shù)的三大支柱(計(jì)算、存儲、網(wǎng)絡(luò))之一,也是 Web3 領(lǐng)域最早出現(xiàn)也最受

    2024年02月02日
    瀏覽(104)
  • 我們?yōu)槭裁葱枰狝PI管理系統(tǒng)?

    我們?yōu)槭裁葱枰狝PI管理系統(tǒng)?

    我們?yōu)槭裁葱枰狝PI管理系統(tǒng)? 隨著web技術(shù)的發(fā)展,前后端分離成為越來越多互聯(lián)網(wǎng)公司構(gòu)建應(yīng)用的方式。前后端分離的優(yōu)勢是一套Api可被多個(gè)客戶端復(fù)用,分工和協(xié)作被細(xì)化,大大提高了編碼效率,但同時(shí)也帶來一些“副作用”: 接口文檔不可靠。很多小伙伴管理接口文檔,

    2024年02月12日
    瀏覽(106)
  • 為什么我們需要API接口?API接口的核心又是什么?
  • 視覺化洞察:為什么我們需要數(shù)據(jù)可視化?

    視覺化洞察:為什么我們需要數(shù)據(jù)可視化?

    為什么我們需要數(shù)據(jù)可視化?這個(gè)問題在信息時(shí)代變得愈發(fā)重要。數(shù)據(jù),如今已成為生活的一部分,我們每天都在產(chǎn)生大量的數(shù)據(jù),從社交媒體到購物記錄,從健康數(shù)據(jù)到工作表現(xiàn),數(shù)據(jù)無處不在。然而,數(shù)據(jù)本身通常是冷冰冰的數(shù)字,對于大多數(shù)人而言,理解和分析這些數(shù)

    2024年02月10日
    瀏覽(31)
  • 什么是Web3.0?為什么我們需要 Web 3.0

    什么是Web3.0?為什么我們需要 Web 3.0

    為了更好地理解什么是 Web 3.0,我們需要知道什么是 Web 1.0 和 2.0。 為了不讓你厭煩,這里簡單的解釋一下: WEB 3.0 例子:xiaqo.com Web 1.0 ?—— 信息僅從網(wǎng)站傳遞給用戶。 Web 2.0 ?—— 信息是雙向的。 用戶可以與網(wǎng)站交互互動(dòng)。 Web 3.0 ?—— 偉大的超越。 信息變得開放、分散

    2024年02月03日
    瀏覽(25)
  • 什么是分布式操作系統(tǒng)?我們?yōu)槭裁葱枰植际讲僮飨到y(tǒng)?

    什么是分布式操作系統(tǒng)?我們?yōu)槭裁葱枰植际讲僮飨到y(tǒng)?

    分布式操作系統(tǒng)是一種特殊的操作系統(tǒng),本質(zhì)上屬于多機(jī)操作系統(tǒng),是傳統(tǒng)單機(jī)操作系統(tǒng)的發(fā)展和延伸。它是將一個(gè)計(jì)算機(jī)系統(tǒng)劃分為多個(gè)獨(dú)立的計(jì)算單元(或者也可稱為節(jié)點(diǎn)),這些節(jié)點(diǎn)被部署到每臺計(jì)算機(jī)上,然后被網(wǎng)絡(luò)連接起來,并保持著持續(xù)的通信狀態(tài)。在分布式操作

    2024年02月16日
    瀏覽(37)
  • java 架構(gòu)師需要掌握什么技能

    Java架構(gòu)師是負(fù)責(zé)設(shè)計(jì)和實(shí)現(xiàn)復(fù)雜軟件系統(tǒng)架構(gòu)的專業(yè)人士,他們需要具備扎實(shí)的編程基礎(chǔ)、豐富的項(xiàng)目經(jīng)驗(yàn)和深厚的理論知識。以下是Java架構(gòu)師應(yīng)該掌握的核心技能: 深厚的技術(shù)棧 : Java基礎(chǔ)知識 :精通Java語言本身及其核心特性,包括面向?qū)ο笤O(shè)計(jì)原則、集合框架、多線

    2024年04月27日
    瀏覽(25)
  • 網(wǎng)絡(luò)安全需要學(xué)什么?網(wǎng)絡(luò)安全需要掌握哪些技能?

    目前網(wǎng)絡(luò)安全是一個(gè)非常受歡迎的職業(yè),其前景好、需求量大,無論大企業(yè)還是小企業(yè),網(wǎng)絡(luò)安全都是一個(gè)雙高職位,地位高、薪資高,而且入門門檻也比較低。那么網(wǎng)絡(luò)安全難學(xué)嗎?需要掌握哪些技能?接下來,為大家介紹一下。 網(wǎng)絡(luò)安全難學(xué)嗎? 學(xué)習(xí)網(wǎng)絡(luò)安全需要循序漸進(jìn)

    2024年02月13日
    瀏覽(31)
  • 【云原生-白皮書】簡章1:為什么我們需要云原生架構(gòu)?

    【云原生-白皮書】簡章1:為什么我們需要云原生架構(gòu)?

    聲明:本文為《阿里云云原生架構(gòu)核心技術(shù)白皮書》的一些讀書筆記與感想。 一文大致了解云原生架構(gòu)模式特點(diǎn)傳送門:五分鐘了解云原生的架構(gòu)模式 聲明:本文是閱讀阿里云云原生架構(gòu)核心技術(shù)白皮書的一些讀書筆記與感想。 云原生架構(gòu)是一種創(chuàng)新的軟件開發(fā)方法,專為

    2023年04月26日
    瀏覽(25)
  • 為什么kafka 需要 subscribe 的 group.id?我們是否需要使用 commitSync 手動(dòng)提交偏移量?

    消費(fèi)概念: Kafka 使用消費(fèi)者組的概念來實(shí)現(xiàn)主題的并行消費(fèi) - 每條消息都將在每個(gè)消費(fèi)者組中傳遞一次,無論該組中實(shí)際有多少個(gè)消費(fèi)者。所以 group 參數(shù)是強(qiáng)制性的,如果沒有組,Kafka 將不知道如何對待訂閱同一主題的其他消費(fèi)者。 偏移量 : 每當(dāng)我們啟動(dòng)一個(gè)消費(fèi)者時(shí),

    2024年02月12日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包