国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

越小越好: Q8-Chat,在英特爾至強 CPU 上體驗高效的生成式 AI

這篇具有很好參考價值的文章主要介紹了越小越好: Q8-Chat,在英特爾至強 CPU 上體驗高效的生成式 AI。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

大語言模型 (LLM) 正在席卷整個機器學(xué)習(xí)世界。得益于其 transformer 架構(gòu),LLM 擁有從大量非結(jié)構(gòu)化數(shù)據(jù) (如文本、圖像、視頻或音頻) 中學(xué)習(xí)的不可思議的能力。它們在 多種任務(wù)類型 上表現(xiàn)非常出色,無論是文本分類之類的抽取任務(wù) (extractive task) 還是文本摘要和文生圖像之類的生成任務(wù) (generative task)。

顧名思義,LLM 是 _大_模型,其通常擁有超過 100 億個參數(shù),有些甚至擁有超過 1000 億個參數(shù),如 BLOOM 模型。 LLM 需要大量的算力才能滿足某些場景 (如搜索、對話式應(yīng)用等) 的低延遲需求。而大算力通常只有高端 GPU 才能提供,不幸的是,對于很多組織而言,相關(guān)成本可能高得令人望而卻步,因此它們很難在其應(yīng)用場景中用上最先進(jìn)的 LLM。

在本文中,我們將討論有助于減少 LLM 尺寸和推理延遲的優(yōu)化技術(shù),以使得它們可以在英特爾 CPU 上高效運行。

量化入門

LLM 通常使用 16 位浮點參數(shù) (即 FP16 或 BF16) 進(jìn)行訓(xùn)練。因此,存儲一個權(quán)重值或激活值需要 2 個字節(jié)的內(nèi)存。此外,浮點運算比整型運算更復(fù)雜、更慢,且需要額外的計算能力。

量化是一種模型壓縮技術(shù),旨在通過減少模型參數(shù)的值域來解決上述兩個問題。舉個例子,你可以將模型量化為較低的精度,如 8 位整型 (INT8),以縮小它們的位寬并用更簡單、更快的整型運算代替復(fù)雜的浮點運算。

簡而言之,量化將模型參數(shù)縮放到一個更小的值域。一旦成功,它會將你的模型縮小至少 2 倍,而不會對模型精度產(chǎn)生任何影響。

你可以進(jìn)行訓(xùn)時量化,即量化感知訓(xùn)練 (QAT),這個方法通常精度更高。如果你需要對已經(jīng)訓(xùn)成的模型進(jìn)行量化,則可以使用訓(xùn)后量化 (PTQ),它會更快一些,需要的算力也更小。

市面上有不少量化工具。例如,PyTorch 內(nèi)置了對 量化 的支持。你還可以使用 Hugging Face Optimum-Intel 庫,其中包含面向開發(fā)人員的 QAT 和 PTQ API。

量化 LLM

最近,有研究 [1][2] 表明目前的量化技術(shù)不適用于 LLM。LLM 中有一個特別的現(xiàn)象,即在每層及每個詞向量中都能觀察到某些特定的激活通道的幅度異常,即某些通道的激活值的幅度比其他通道更大。舉個例子,下圖來自于 OPT-13B 模型,你可以看到在所有詞向量中,其中一個通道的激活值比其他所有通道的大得多。這種現(xiàn)象在每個 transformer 層中都存在。



圖源: SmoothQuant 論文

迄今為止,最好的激活量化技術(shù)是逐詞量化,而逐詞量化會導(dǎo)致要么離群值 (outlier) 被截斷或要么幅度小的激活值出現(xiàn)下溢,它們都會顯著降低模??型質(zhì)量。而量化感知訓(xùn)練又需要額外的訓(xùn)練,由于缺乏計算資源和數(shù)據(jù),這在大多數(shù)情況下是不切實際的。

SmoothQuant [3][4] 作為一種新的量化技術(shù)可以解決這個問題。其通過對權(quán)重和激活進(jìn)行聯(lián)合數(shù)學(xué)變換,以增加權(quán)重中離群值和非離群值之間的比率為代價降低激活中離群值和非離群值之間的比率,從而行平滑之實。該變換使 transformer 模型的各層變得“量化友好”,并在不損害模型質(zhì)量的情況下使得 8 位量化重新成為可能。因此,SmoothQuant 可以幫助生成更小、更快的模型,而這些模型能夠在英特爾 CPU 平臺上運行良好。



圖源: SmoothQuant 論文

現(xiàn)在,我們看看 SmoothQuant 在流行的 LLM 上效果如何。

使用 SmoothQuant 量化 LLM

我們在英特爾的合作伙伴使用 SmoothQuant-O3 量化了幾個 LLM,分別是: OPT 2.7B、6.7B [5],LLaMA 7B [6],Alpaca 7B [7],Vicuna 7B [8],BloomZ 7.1B [9] 以及 MPT-7B-chat [10]。他們還使用 EleutherAI 的語言模型評估工具 對量化模型的準(zhǔn)確性進(jìn)行了評估。

下表總結(jié)了他們的發(fā)現(xiàn)。第二列展示了量化后性能反而得到提升的任務(wù)數(shù)。第三列展示了量化后各個任務(wù)平均性能退化的均值 (* 負(fù)值表示量化后模型的平均性能提高了)。你可以在文末找到詳細(xì)結(jié)果。

如你所見,OPT 模型非常適合 SmoothQuant 量化。模型比預(yù)訓(xùn)練的 16 位模型約小 2 倍。大多數(shù)指標(biāo)都會有所改善,而那些沒有改善的指標(biāo)僅有輕微的降低。

對于 LLaMA 7B 和 BloomZ 7.1B,情況則好壞參半。模型被壓縮了約 2 倍,大約一半的任務(wù)的指標(biāo)有所改進(jìn)。但同樣,另一半的指標(biāo)僅受到輕微影響,僅有一個任務(wù)的相對退化超過了 3%。

使用較小模型的明顯好處是推理延遲得到了顯著的降低。該 視頻 演示了在一個 32 核心的單路英特爾 Sapphire Rapids CPU 上使用 MPT-7B-chat 模型以 batch size 1 實時生成文本的效果。

在這個例子中,我們問模型: “ What is the role of Hugging Face in democratizing NLP? ”。程序會向模型發(fā)送以下提示:
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user’s questions. USER: What is the role of Hugging Face in democratizing NLP? ASSISTANT:

這個例子展示了 8 位量化可以在第 4 代至強處理器上獲得額外的延遲增益,從而使每個詞的生成時間非常短。這種性能水平無疑使得在 CPU 平臺上運行 LLM 成為可能,從而為客戶提供比以往任何時候都更大的 IT 靈活性和更好的性價比。

在至強 CPU 上體驗聊天應(yīng)用

HuggingFace 的首席執(zhí)行官 Clement 最近表示: “專注于訓(xùn)練和運行成本更低的小尺寸、垂域模型,會使更多的公司會收益。” Alpaca、BloomZ 以及 Vicuna 等小模型的興起,為企業(yè)在生產(chǎn)中降低微調(diào)和推理成本的創(chuàng)造了新機會。如上文我們展示的,高質(zhì)量的量化為英特爾 CPU 平臺帶來了高質(zhì)量的聊天體驗,而無需龐大的 LLM 和復(fù)雜的 AI 加速器。

我們與英特爾一起在 Spaces 中創(chuàng)建了一個很有意思的新應(yīng)用演示,名為 Q8-Chat (發(fā)音為 Cute chat)。Q8-Chat 提供了類似于 ChatGPT 的聊天體驗,而僅需一個有 32 核心的單路英特爾 Sapphire Rapids CPU 即可 (batch size 為 1)。

Space 體驗地址: https://intel-q8-chat.hf.space

下一步

我們正致力于將 Intel Neural Compressor 集成入 Hugging Face Optimum Intel,從而使得 Optimum Intel 能夠利用這一新量化技術(shù)。一旦完成,你只需幾行代碼就可以復(fù)現(xiàn)我們的結(jié)果。

敬請關(guān)注。

未來屬于 8 比特!

本文保證純純不含 ChatGPT。

致謝

本文系與來自英特爾實驗室的 Ofir Zafrir、Igor Margulis、Guy Boudoukh 和 Moshe Wasserblat 共同完成。特別感謝他們的寶貴意見及合作。

附錄: 詳細(xì)結(jié)果

負(fù)值表示量化后性能有所提高。


英文原文: https://hf.co/blog/generative-ai-models-on-intel-cpu

原文作者: Julien Simon

譯者: Matrix Yao (姚偉峰),英特爾深度學(xué)習(xí)工程師,工作方向為 transformer-family 模型在各模態(tài)數(shù)據(jù)上的應(yīng)用及大規(guī)模模型的訓(xùn)練推理。

審校/排版: zhongdongy (阿東)文章來源地址http://www.zghlxwxcb.cn/news/detail-456463.html

到了這里,關(guān)于越小越好: Q8-Chat,在英特爾至強 CPU 上體驗高效的生成式 AI的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 英特爾13代桌面CPU平臺安裝ubuntu20.04LTS記錄

    英特爾13代桌面CPU平臺安裝ubuntu20.04LTS記錄

    安裝環(huán)境一: i7-13700K ?華碩Z790-P ?16X2GB內(nèi)存 ? 華碩 TUF 3070 O8G 安裝環(huán)境二: i5-13400 ? ?華碩B760M-A D4 8x2GB內(nèi)存 ? UHD730核顯 安裝系統(tǒng): ubuntu20.04LTS(首先用光驅(qū)安裝失敗,后面用U盤更換ubuntu22.04.2LTS成功) 因為特殊原因,先用光驅(qū)安裝ubuntu20.04LTS,首先安裝很慢很慢,要等半小時進(jìn)

    2024年02月06日
    瀏覽(93)
  • 英特爾Raptor Lake Refresh第14代CPU:傳聞發(fā)布日期、價格、規(guī)格等

    英特爾Raptor Lake Refresh第14代CPU:傳聞發(fā)布日期、價格、規(guī)格等

    英特爾預(yù)計將在今年秋天推出第14代Raptor Lake-S Refresh CPU。雖然即將推出的系列芯片沿用了當(dāng)前的第13代英特爾核心系列,但它們實際上是相同CPU的更新版本。 Raptor Lake-s Refresh芯片沒有任何官方消息,但幾次所謂的泄露讓我們了解了我們可能會期待什么。如果這些傳言和報道屬

    2024年02月11日
    瀏覽(27)
  • 使用FastDeploy在英特爾CPU和獨立顯卡上端到端高效部署AI模型

    使用FastDeploy在英特爾CPU和獨立顯卡上端到端高效部署AI模型

    目錄 1.1?產(chǎn)業(yè)實踐中部署AI模型的痛點 1.1.1??部署模型的典型流程 1.1.2 端到端的AI性能 1.1.3 部署模型的難點和痛點 1.2 FastDeploy簡介 1.3 英特爾獨立顯卡簡介 1.4 使用FastDeploy在英特爾CPU和獨立顯卡上部署模型的步驟 1.4.1 搭建FastDeploy開發(fā)環(huán)境 1.4.2 下載模型和測試圖處 1.4.3 三行代

    2024年02月01日
    瀏覽(32)
  • Python 獲取windows下硬件數(shù)據(jù)信息(CPU,內(nèi)存,英特爾、英偉達(dá)、AMD顯卡使用率及詳細(xì)信息)

    Python 獲取windows下硬件數(shù)據(jù)信息(CPU,內(nèi)存,英特爾、英偉達(dá)、AMD顯卡使用率及詳細(xì)信息)

    前言:最近一直在做關(guān)于顯卡數(shù)據(jù)采集的調(diào)研工作,也在github上看到了一些三方庫比如Python和golang的psutil, python: gpustart,再或者通過wmi或者windowsApi等底層接口 但是都只能獲取到顯卡的名稱以及廠家信息等 無法真正意義上獲取到顯卡占用率等數(shù)據(jù) 在或者只能獲取到英偉達(dá)的顯卡

    2024年02月16日
    瀏覽(33)
  • 英特爾開始加碼封裝領(lǐng)域 | 百能云芯

    英特爾開始加碼封裝領(lǐng)域 | 百能云芯

    ? 在積極推進(jìn)先進(jìn)制程研發(fā)的同時,英特爾正在加大先進(jìn)封裝領(lǐng)域的投入。在這個背景下,該公司正在馬來西亞檳城興建一座全新的封裝廠,以加強其在2.5D/3D封裝布局領(lǐng)域的實力。據(jù)了解,英特爾計劃到2025年前,將其最先進(jìn)的3D Foveros封裝產(chǎn)能擴增至目前的四倍,同時還向客

    2024年02月11日
    瀏覽(20)
  • 英特爾? NUC迷你電腦設(shè)置帶電自啟

    英特爾? NUC迷你電腦設(shè)置帶電自啟

    連接電源后英特爾? NUC迷你電腦可以自動啟動嗎? (intel.cn)? ? 想死的風(fēng)還是吹到了公司 | ?????喂,勞動仲裁嗎?這里有人強迫貓咪打工!?? ?

    2024年02月07日
    瀏覽(29)
  • AMD出招,英特爾最不想看到的對手來了

    AMD出招,英特爾最不想看到的對手來了

    前段時間的CES上,AMD正式發(fā)布Ryzen 7000的3D緩存版,對于游戲玩家來說,Ryzen 7000 3D緩存版算是今年最期待的CPU。上一代的Ryzen7 5800X3D憑借超強的游戲性能和性價比,在德國最大的PC硬件零售商的統(tǒng)計中,甚至成為2022年最暢銷的高性能處理器。 有著Ryzen 5000 3D緩存版的珠玉在前,

    2024年02月10日
    瀏覽(19)
  • 聯(lián)手英特爾,釋放星飛分布式全閃存儲潛能

    聯(lián)手英特爾,釋放星飛分布式全閃存儲潛能

    近日,英特爾官網(wǎng)發(fā)布了與 XSKY 星辰天合聯(lián)手打造的解決方案,即 XSKY 的新一代全閃分布式存儲系統(tǒng) XINFINI,該存儲系統(tǒng)采用英特爾 QAT 加速數(shù)據(jù)壓縮/解壓縮,從而大幅度提升存儲系統(tǒng)性能。 全閃存儲系統(tǒng)面臨的解壓縮挑戰(zhàn) 在存儲系統(tǒng)的數(shù)據(jù)服務(wù)層中,通常需要進(jìn)行一定的壓

    2024年02月01日
    瀏覽(17)
  • 解決英特爾無線網(wǎng)卡WiFi或者藍(lán)牙突然消失問題

    解決英特爾無線網(wǎng)卡WiFi或者藍(lán)牙突然消失問題

    win+R,輸入“devmgmt.msc”,檢查設(shè)備管理器中的無線網(wǎng)卡驅(qū)動是否安裝好。 訪問https://www.intel.cn/content/www/cn/zh/download/19351/windows-10-and-windows-11-wi-fi-drivers-for-intel-wireless-adapters.html下載對應(yīng)系統(tǒng)版本的英特爾無線網(wǎng)卡WiFi驅(qū)動后安裝。 訪問https://www.intel.cn/content/www/cn/zh/download/18649

    2024年01月17日
    瀏覽(26)
  • 英特爾:處理器王座不再,AI戰(zhàn)潰不成軍

    英特爾:處理器王座不再,AI戰(zhàn)潰不成軍

    英特爾于北京時間2024年1月26日上午的美股盤后發(fā)布了2023年第四季度財報(截止2023年12月),要點如下: 1、核心數(shù)據(jù):數(shù)據(jù)超預(yù)期,實際經(jīng)營面符合預(yù)期。 英特爾在2023年第四季度 實現(xiàn)營收154億美元,略超市場預(yù)期(152億美元)。本季度收入環(huán)比繼續(xù)提升,主要得益于PC客戶

    2024年02月19日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包