1、SFT是監(jiān)督微調(Supervised Fine-Tun-ing)的縮寫。這是一種常見的深度學習策略,通常在預訓練的大語言模型上使用。
參考該文
2、強化學習(Reinforcement Learning)
1)強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環(huán)境(Environment)進行交互獲得的獎賞(Reward)驅動行為(Action),目標是使智能體獲得最大的獎賞。
2)強化學習與監(jiān)督學習有很大的不同,強化學習不需要依靠標簽好的數(shù)據(jù)信息,甚至可以不需要大量的數(shù)據(jù),強化學習通過自身學習去產生數(shù)據(jù)集,并且利用產生的數(shù)據(jù)集繼續(xù)進行學習優(yōu)化,找到最優(yōu)的方式。
3、RLHF(Reinforcement Learning?fromHuman Feedback,人類反饋強化學習)起到的作用是,通過將人類的反饋納入訓練過程,為機器提供了一種自然的、人性化的互動學習過程。這就像人類從另一個專業(yè)人士身上學習專業(yè)知識的方式一樣。通過和人類之間架起一座橋梁,RLHF讓AI快速掌握了人類經驗。在RLHF中,強化學習與人類反饋相結合,人類的偏好被用作獎勵信號,以指導模型的訓練,從而增強模型對人類意圖的理解和滿足程度。在生成模型中,RLHF還可以讓生成的圖像與文本提示得到充分對齊。
監(jiān)督微調需要調整參數(shù),強化學習不需要調整參數(shù)。
4、遷移學習,參考該文
遷移學習(Transfer Learning)是一種機器學習方法,就是把為任務 A 開發(fā)的模型作為初始點,重新使用在為任務 B 開發(fā)模型的過程中。遷移學習是通過從已學習的相關任務中轉移知識來改進學習的新任務,雖然大多數(shù)機器學習算法都是為了解決單個任務而設計的,但是促進遷移學習的算法的開發(fā)是機器學習社區(qū)持續(xù)關注的話題。 遷移學習對人類來說很常見,例如,我們可能會發(fā)現(xiàn)學習識別蘋果可能有助于識別梨,或者學習彈奏電子琴可能有助于學習鋼琴。
. 為什么需要遷移學習?
大數(shù)據(jù)與少標注的矛盾:雖然有大量的數(shù)據(jù),但往往都是沒有標注的,無法訓練機器學習模型。人工進行數(shù)據(jù)標定太耗時。
大數(shù)據(jù)與弱計算的矛盾:普通人無法擁有龐大的數(shù)據(jù)量與計算資源。因此需要借助于模型的遷移。
普適化模型與個性化需求的矛盾:即使是在同一個任務上,一個模型也往往難以滿足每個人的個性化需求,比如特定的隱私設置。這就需要在不同人之間做模型的適配。
特定應用(如冷啟動)的需求。
5、有監(jiān)督學習、無監(jiān)督學習,參考該文
有監(jiān)督學習的訓練數(shù)據(jù)集是有標注的,相當于告訴模型正確答案了,會用測試集(訓練集的子集)來進行預測。無監(jiān)督學習,模型使用未標記的數(shù)據(jù)集進行訓練。
6、注意力機制,參考該文???????
始注意力模型!
(1)卷積神經網絡中的最大匯聚:查看一塊空間區(qū)域內的特征,并選擇只保留一個特征。這是一種“全有或全無”的注意力形式,即保留最重要的特征,舍棄其他特征。
(2)TF-IDF規(guī)范化:根據(jù)每個詞元可能攜帶的信息量,確定詞元的重要性分數(shù)。重要的詞元會受到重視,而不相關的詞元則會被忽視。這是一種連續(xù)的注意力形式。有各種不同形式的注意力,但它們首先都要對一組特征計算重要性分數(shù)。特征相關性越大,分數(shù)越高;特征相關性越小,分數(shù)越低,如圖11-5所示。如何計算和處理這個分數(shù),則因方法而異。文章來源:http://www.zghlxwxcb.cn/news/detail-796438.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-796438.html
到了這里,關于人工智能的技術概念解釋的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!