大白話:?
DL的本質(zhì)就是矩陣的乘法,就能實現(xiàn)LLM,
假設(shè)兩個矩陣都很大,一個mxn,一個nxd的矩陣,m,n,d這幾個數(shù)字可能幾千甚至上萬的場景,計算起來代價很大,如果我們可以small 這些數(shù)字,縮小到10甚至5這樣的scenario,cost就非常的小。
訓(xùn)練的時候只訓(xùn)練?右邊橙色的AB矩陣
那么基于什么理論,我們可以這么搞呢??
?
?
?
?
目前看到講解最好的博客,難怪點贊數(shù)也很高,細節(jié)都在里面,比如為什么要low-rank,理論基礎(chǔ)是什么,并且還有發(fā)散,數(shù)學(xué)上的內(nèi)容也比較友好。
【OpenLLM 006】LoRA:大模型的低秩適配-最近大火的lora到底是什么東西?為啥stable diffusion和開源ChatGPT復(fù)現(xiàn)都在用? - 知乎 (zhihu.com)?
Reference
深入淺出剖析 LoRA 技術(shù)原理_lora csdn-CSDN博客
【OpenLLM 006】LoRA:大模型的低秩適配-最近大火的lora到底是什么東西?為啥stable diffusion和開源ChatGPT復(fù)現(xiàn)都在用? - 知乎 (zhihu.com)文章來源:http://www.zghlxwxcb.cn/news/detail-743506.html
PaperReading-“Intrinsic Dimension” - 知乎 (zhihu.com)?//中科大少年班的孩子寫的,挺不錯的文章來源地址http://www.zghlxwxcb.cn/news/detail-743506.html
到了這里,關(guān)于【LLM】大語言模型高效微調(diào)方案Lora||直擊底層邏輯的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!