背景
用最少的計算資源,解決了LLM大模型預測問題,訓練了一些列的LLaMa模型,在參數(shù)量比較少的情況下,達到業(yè)界大模型效果。
主要貢獻就是提升了LLM模型的訓練速度和效率,在小容量的基礎上,大大提升了模型的效果。
同時由于模型結構更小更簡單,大大提升了推理速度。
數(shù)據(jù)
預訓練的數(shù)據(jù)都是業(yè)界公開的數(shù)據(jù)結合,比較透明。
模型結構
主體模型結構還是transformer經(jīng)典模型結構,但是進行了優(yōu)化,比如說不是在每一層的output結果上進行norm正則化,而是在input層進行norm正則化。替換了激活函數(shù)等。
優(yōu)化器
文章來源:http://www.zghlxwxcb.cn/news/detail-534848.html
訓練加速優(yōu)化
使用了《SELF-ATTENTION DOES NOT NEED O(n2) MEMORY》思想,對self-attention進行了內存優(yōu)化,將內存使用量從O(n2)簡化到了O(log(n)),大大降低了模型內存占用量,有效提升了長序列處理的能力。文章來源地址http://www.zghlxwxcb.cn/news/detail-534848.html
到了這里,關于LLaMA: Open and Efficient Foundation Language Models的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!