国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法

這篇具有很好參考價值的文章主要介紹了12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

本文源自:量子位

只需12秒,只憑手機自己的算力,就能拿Stable Diffusion生成一張圖像。

而且是完成了20次迭代的那種。

12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法

要知道,現(xiàn)在的擴散模型基本都超過了10億參數(shù),想要快速生成一張圖片,要么基于云計算,要么就是要本地硬件夠強大了。

而隨著大模型應(yīng)用逐漸普及開來,在個人電腦、手機上跑大模型很可能是未來的新趨勢。

由此,谷歌的研究員們帶來了這篇新成果,名字就叫Speed is all you need:通過GPU優(yōu)化加速大規(guī)模擴散模型在設(shè)備上的推理速度。

12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法

三步走優(yōu)化加速

該方法是針對Stable Diffusion來做的優(yōu)化,但同時也能適應(yīng)其他擴散模型。面向的任務(wù)是從文本生成圖像。

具體優(yōu)化可以分成三個部分

  • 設(shè)計專門的內(nèi)核

  • 提升Attention模型效率

  • Winograd卷積加速

首先來看專門設(shè)計的內(nèi)核,它包括了組歸一化和GELU激活函數(shù)。

組歸一化是在整個UNet體系結(jié)構(gòu)中實現(xiàn),這種歸一化的工作原理是將特征映射的通道劃分為更小的組,并對每個組獨立歸一,使組歸一化較少依賴于批大小,并且能適應(yīng)更大范圍的批處理大小和網(wǎng)絡(luò)架構(gòu)。

研究人員以GPU著色器(shader)的形式設(shè)計了一個獨特的核,能在沒有任何中間張量的情況下,在單個GPU命令中執(zhí)行所有內(nèi)核。

GELU激活函數(shù)中,包含大量的數(shù)值計算,如懲罰、高斯誤差函數(shù)等。

通過一個專用著色器來整合這些數(shù)值計算以及伴隨的分割和乘法操作,使得這些計算能放在一個簡單的draw call里。

Draw call是CPU調(diào)用圖像編程接口,命令GPU進行渲染的操作。

接下來,到了提升Attention模型效率方面,論文介紹了兩種優(yōu)化方法。

其一是部分融合softmax函數(shù)。

為了避免在大矩陣A上執(zhí)行整個softmax計算,該研究設(shè)計了一個GPU著色器來計算L和S向量以減少計算,最終得到一個大小為N×2的張量。然后將softmax計算和矩陣V的矩陣乘法融合。

這種方法大幅減少了中間程序的內(nèi)存占用張量和總體延遲。

12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法

需要強調(diào)的是從A到L、S的計算映射的并行是有限的,因為結(jié)果張量中的元素比輸入張量A中的元素數(shù)量要少得多。

為了增加并行、進一步降低延遲,該研究將A中的元素組成block,將歸約操作(reduction operations)切分為多個部分進行。

然后在每個block上執(zhí)行計算,然后將其簡化為最終結(jié)果。

利用精心設(shè)計的線程和內(nèi)存緩存管理,可以在多個部分實現(xiàn)使用單個GPU命令降低延遲。

另一種優(yōu)化方法是FlashAttention。

這是去年火起來的IO感知精確注意力算法,具體有兩種加速技術(shù):按塊遞增計算即平鋪、并在后向傳遞中重新計算注意力,將所有注意力操作融合到CUDA內(nèi)核中。

相較于標準Attention,這種方法能減少HBM(高帶寬內(nèi)存)訪問,提高整體效率。

不過FlashAttention內(nèi)核的緩存器密集度非常高(register-intensive),所以該團隊是有選擇性地使用這一優(yōu)化方法。

他們在注意力矩陣d=40的Adreno GPU和Apple GPU上使用FlashAttention,其他情況下使用部分融合softmax函數(shù)。

第三部分是Winograd卷積加速。

它的原理簡單來說就是使用更多的加法計算來減少乘法計算,從而降低計算量。

但弊端也很明顯,將會帶來更多的顯存消耗和數(shù)值錯誤,尤其是在tile比較大的情況時。

Stable Diffusion的主干非常依賴3×3卷積層,尤其是在圖像解碼器方面,這里90%的層都是由3×3卷積層構(gòu)成的。

研究人員分析后發(fā)現(xiàn),在使用4×4大小的tile時,是模型計算效率和顯存利用率的最佳平衡點。

12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法

實驗結(jié)果

為了評估提升效果,研究人員先在手機上進行了基準測試。

12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法

結(jié)果表明,兩部手機在使用了加速算法后,生成圖片的速度都明顯提升。

其中三星S23 Ultra的延遲降低了52.2%,iPhone 14 Pro Max上的延遲降低了32.9%。

在三星S23 Ultra上端到端從文本生成一張512×512像素的圖片,迭代20次,耗時在12秒以內(nèi)。

論文地址:
https://arxiv.org/abs/2304.11267

卡奧斯開源社區(qū)是為開發(fā)者提供便捷高效的開發(fā)服務(wù)和可持續(xù)分享、交流的IT前沿陣地,包含技術(shù)文章、群組、互動問答、在線學(xué)習(xí)、大賽活動、開發(fā)者平臺、OpenAPI平臺、低代碼平臺、開源項目等服務(wù),社區(qū)使命是讓每一個知識工人成就不凡。

?官網(wǎng)鏈接:Openlab.cosmoplat—打造工業(yè)互聯(lián)網(wǎng)頂級開源社區(qū)文章來源地址http://www.zghlxwxcb.cn/news/detail-427512.html

到了這里,關(guān)于12秒內(nèi)AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • unity發(fā)布WebGl在手機上的橫屏適配,webgl橫版游戲在手機上直接轉(zhuǎn)橫屏

    unity發(fā)布WebGl在手機上的橫屏適配,webgl橫版游戲在手機上直接轉(zhuǎn)橫屏

    unity版本2020.1 問題:webgl的橫版游戲 1920*1080,在手機上適配的不好,還是豎屏顯示, 使用官方的說明,說是只在全屏模式下能旋轉(zhuǎn),也不好用,可能直接旋轉(zhuǎn)也不會達到理想的效果 解決方案: 1.我這邊使用的方案是UI的適配,UGUI,采用的是兩套UI,根據(jù)不同平臺加載不同的資源

    2024年02月02日
    瀏覽(24)
  • tcpdump在手機上的使用

    tcpdump在手機上的使用

    首先手機得root才可以,主要分析手機與手機的通信協(xié)議 我使用的是一加9pro,?root方法參考 一加全能盒子、一加全能工具箱官方網(wǎng)站——大俠阿木 (daxiaamu.com) https://optool.daxiaamu.com/index.php ?tcpdump,要安裝在/data/local/tmp下要arm64的版本,參考下面的文章 安卓使用tcpdump抓包_tcp

    2024年02月21日
    瀏覽(18)
  • 在手機上運行Python程序

    Python是一種廣泛使用的編程語言,它在許多領(lǐng)域中都有廣泛的應(yīng)用。雖然Python通常在計算機上運行,但是你也可以在手機上運行Python程序。本文將介紹如何在手機上運行Python程序,并提供相應(yīng)的源代碼示例。 要在手機上運行Python程序,我們需要一個能夠在移動設(shè)備上運行Py

    2024年02月03日
    瀏覽(16)
  • vue3 - 最新手機掃碼PC網(wǎng)站二維碼登錄功能,用手機端掃描PC端vue3網(wǎng)頁的登錄二維碼,然后在手機上點擊“確認登錄“完成登錄,PC網(wǎng)頁生成登錄二維碼,用戶拿手機掃碼,手機上點確定后電腦端做出響應(yīng)

    vue3 - 最新手機掃碼PC網(wǎng)站二維碼登錄功能,用手機端掃描PC端vue3網(wǎng)頁的登錄二維碼,然后在手機上點擊“確認登錄“完成登錄,PC網(wǎng)頁生成登錄二維碼,用戶拿手機掃碼,手機上點確定后電腦端做出響應(yīng)

    在vue3開發(fā)中,詳細實現(xiàn) “PC電腦網(wǎng)站生成微信登錄二維碼+手機掃碼登錄+雙端同步數(shù)據(jù)”,利用掃碼實現(xiàn)網(wǎng)站登錄功能、用戶用手機掃描電腦端二維碼進行登錄的詳細教程步驟(電腦端PC網(wǎng)頁、手機端都是vue3開發(fā),支持將手機端改造成微信小程序、uniapp安卓蘋果app、H5網(wǎng)頁等

    2024年04月13日
    瀏覽(21)
  • 在手機上模擬kali系統(tǒng)(bochs)

    ? 先進入官網(wǎng):kali.org下載32位kali文件,推薦下載輕量級,之后下載bochs(最新版)下載完后,打開bochs,點點ata0-master,選擇cdrom,之后選擇剛下載完的iso文件,之后到底部啟動還是選擇cdrom,之后點擊配置設(shè)置內(nèi)存,之后點去start好了,如果出現(xiàn)閃退,有可能內(nèi)存不足或需清一下緩

    2024年02月09日
    瀏覽(17)
  • 如何在手機上寫Python--安卓篇

    如何在手機上寫Python--安卓篇

    大家好,歡迎來到 Crossin的編程教室 ! 寫代碼當然要在電腦上,畢竟打字方便屏幕又大。但偏偏有人要在坐車、吃飯、上課、約會的時候?qū)懘a。于是我就會經(jīng)常被問到: 今天就給你們分享下,安卓手機編寫并運行Python代碼的三個App。 詳細操作演示見視頻: 1. QPython 應(yīng)用商

    2024年01月25日
    瀏覽(21)
  • 如何在手機上使用bing chat?

    如何在手機上使用bing chat?

    如何在手機上使用bing chat? 用過手機助手的人一定知道,目前的語音助手存在諸多的問題。 而chatGPT4是基于openAI開發(fā)的人工智能語言模型。能夠根據(jù)上下文生成類似人類的文本,有時候看著他的回答真的叫人驚艷。 不管是文員、工程師還是創(chuàng)作者,bing chat的強大搜集分析能力

    2024年02月04日
    瀏覽(19)
  • 在手機上使用MAA一鍵長草

    在手機上使用MAA一鍵長草

    在手機中搭建Linux虛擬機,在虛擬機中下載Maa,然后解壓配置啟動。 Linux虛擬機方案 使用linux deploy (需要ROOT) 這是我目前使用的方案,也是本文主要演示的方案。 linux deploy 可以配置開機啟動自啟腳本,十分方便,推薦使用。 使用Termux安裝Linux 建議還是安裝一下Termux,用來

    2024年02月07日
    瀏覽(17)
  • SNPE教程3 - 在手機上部署運行

    SNPE教程3 - 在手機上部署運行

    手機部署和推理參考: https://developer.qualcomm.com/sites/default/files/docs/snpe/tutorial_inceptionv3.html 運行命令 snpe-net-run 的說明參考: https://developer.qualcomm.com/sites/default/files/docs/snpe/tools.html DSP環(huán)境配置: https://developer.qualcomm.com/sites/default/files/docs/snpe/dsp_runtime.html 手機是需要root的 大坑提

    2024年02月16日
    瀏覽(20)
  • 利用Termux在手機上運行爬蟲下載漫畫

    利用Termux在手機上運行爬蟲下載漫畫

    前段時間喜歡上了幾部漫畫,發(fā)現(xiàn)了一個寶藏網(wǎng)站“拷貝漫畫”。上面有很多我想看的漫畫,但是訪問速度很慢,官方提供的下載又有次數(shù)限制。于是就在GITHUB上找了一個大佬寫的爬蟲。 但是爬蟲在電腦端運行,而我喜歡在手機平板上看漫畫,每次要把文件拷貝過去,挺麻煩

    2024年02月10日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包