国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí)

這篇具有很好參考價(jià)值的文章主要介紹了機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

為節(jié)省篇幅,不標(biāo)注文章來(lái)源和文章的問(wèn)題場(chǎng)景。大部分是我的通俗理解。

向量關(guān)于向量的偏導(dǎo)數(shù):雅可比矩陣

機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能

二階導(dǎo)數(shù)矩陣:海森矩陣

多元函數(shù)的二階偏導(dǎo)數(shù)構(gòu)成的方陣,對(duì)稱。
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能

隨機(jī)變量

隨機(jī)變量是樣本點(diǎn)的函數(shù)。

隨機(jī)場(chǎng)

一個(gè)例子是,平面上的每一個(gè)點(diǎn)都是一個(gè)隨機(jī)變量。
隨機(jī)場(chǎng)強(qiáng)調(diào)空間,跟隨機(jī)過(guò)程一樣,都是一系列隨機(jī)變量的集合。

伽馬函數(shù)

階乘在實(shí)數(shù)集上的延拓。比如說(shuō),2.5!。推導(dǎo)過(guò)程只有兩行,見(jiàn)百度百科。

beta分布

beta分布可以從二項(xiàng)分布推導(dǎo)。
以下圖為例講解吧,
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
a+b可以理解為實(shí)驗(yàn)次數(shù)。如a=2,b=3,拋5次硬幣,a=2表示5次中有兩次朝上。如果硬幣朝上的概率為0.3,那么可能性會(huì)較硬幣朝上概率為0.8時(shí)大。此處的縱軸不表示概率(因?yàn)橐WC概率歸一,即曲線下面積為1),但可以體現(xiàn)出概率的相對(duì)大小。
至于狄利克雷分布,是beta分布的高維推廣。

數(shù)學(xué)術(shù)語(yǔ)

  • 算子是一個(gè)函數(shù)到另一個(gè)函數(shù)的映射,它是從向量空間到向量空間的映射
  • 泛函是函數(shù)(向量空間)到數(shù)域的映射
  • 函數(shù)是從數(shù)域到數(shù)域的映射

閉式解=解析解,即獲得一個(gè)解函數(shù),這個(gè)解函數(shù)有通用性,即能幫我們計(jì)算不同情況下的解。
與閉式解對(duì)應(yīng)的,是數(shù)值解,可以認(rèn)為是給定情況下能解出來(lái)一個(gè)足夠精度的解,但換一種情況后之前的解就沒(méi)用了。

配分函數(shù)partition function,所有狀態(tài)的和,放在分母上就能起到歸一作用。

坐標(biāo)上升法

多元函數(shù),求極值。每次固定n-1元,求自由元偏導(dǎo),令偏導(dǎo)為0,就能得到一個(gè)自由元=f(固定元)的更新式。把所有更新式都求出來(lái)之后,開(kāi)始迭代。

協(xié)方差

協(xié)方差經(jīng)常也用來(lái)衡量?jī)蓚€(gè)隨機(jī)變量之間的線性相關(guān)性。如果兩個(gè)隨機(jī)變量的協(xié)方差為0,那么稱這兩個(gè)隨機(jī)變量是線性不相關(guān)。
兩個(gè)隨機(jī)變量之間沒(méi)有線性相關(guān)性,并非表示它們之間是獨(dú)立的,可能存在某種非線性的函數(shù)關(guān)系。反之,如果X與Y是統(tǒng)計(jì)獨(dú)立的,那么它們之間的協(xié)方差一定為0。
協(xié)方差矩陣是在兩個(gè)隨機(jī)向量上討論的。協(xié)方差矩陣中的元素,對(duì)應(yīng)兩個(gè)隨機(jī)變量的協(xié)方差。
核函數(shù),可以衡量?jī)蓚€(gè)樣本之間的相似度。計(jì)算協(xié)方差矩陣時(shí),有若干種核函數(shù)可以選擇。

訓(xùn)練集,驗(yàn)證集,測(cè)試集,交叉驗(yàn)證

訓(xùn)練集,訓(xùn)練獲得最佳參數(shù)。
驗(yàn)證集(強(qiáng)調(diào)調(diào)超參作用時(shí),也有叫開(kāi)發(fā)集的),調(diào)超參,如在神經(jīng)網(wǎng)絡(luò)中選擇隱藏單元數(shù)、廣義線性回歸中的多項(xiàng)式次數(shù)、控制權(quán)值衰減的λi等。一般由專家經(jīng)過(guò)經(jīng)驗(yàn)或者實(shí)驗(yàn)選定??刂颇P蛷?fù)雜程度(如果訓(xùn)練集準(zhǔn)確率提升,而驗(yàn)證集準(zhǔn)確率下降,說(shuō)明過(guò)擬合,模型過(guò)于復(fù)雜,應(yīng)該停手)。
測(cè)試集,測(cè)試泛化能力。
交叉驗(yàn)證,由于數(shù)據(jù)有限,劃為k份之后,用多種分配方案來(lái)劃分為三種集合。

凸函數(shù)

一階導(dǎo)單調(diào)增,或者用兩點(diǎn)連線在函數(shù)圖像上方來(lái)判斷。
損失函數(shù)必須是凸函數(shù),以免梯度下降時(shí)陷入局部最優(yōu)解。

學(xué)習(xí)曲線

偏差大,是欠擬合。方差大,是過(guò)擬合。
欠擬合,可以增加特征。減小正則項(xiàng)。提高模型復(fù)雜度。
過(guò)擬合,可以減少特征。擴(kuò)大數(shù)據(jù)集。增大正則項(xiàng)。降低模型復(fù)雜度。

TF-IDF

用于關(guān)鍵字提取。
字詞在文件中出現(xiàn)次數(shù)越多,則越重要;
字詞在文件集中出現(xiàn)次數(shù)越多,則越不重要。
TF,term frequency,定義為出現(xiàn)次數(shù)/文章詞數(shù)
IDF,inverse document frequency,定義為log(總文章數(shù)/出現(xiàn)文章數(shù))。

分層聚類

自底向上,先定義距離,每次將距離最小的類合并。
定義一個(gè)最大最小值,如果相距最近的類的距離大于它,就停止聚類。決定了是將層分得細(xì)一點(diǎn)還是粗一點(diǎn)。
可見(jiàn),效果取決于距離的定義,和最大最小值的設(shè)置。

萬(wàn)能近似定理,神經(jīng)網(wǎng)絡(luò)到底在干什么

譯自u(píng)niversal approximation theorem。
https://blog.csdn.net/guoyunfei20/article/details/78288271
萬(wàn)能近似定理意味著無(wú)論我們?cè)噲D學(xué)習(xí)什么函數(shù),我們知道一個(gè)大的MLP(多層感知機(jī))一定能夠表示這個(gè)函數(shù)。
兩層的前饋神經(jīng)網(wǎng)絡(luò)可以擬合任意有界閉集上的任意連續(xù)函數(shù)。
這也解釋了神經(jīng)網(wǎng)絡(luò)在“學(xué)什么”,就是在學(xué)一個(gè)函數(shù)。
這個(gè)函數(shù)的作用是,把輸入的低維特征,變成更加抽象的高維特征。
基本的深度學(xué)習(xí)相當(dāng)于函數(shù)逼近問(wèn)題,即函數(shù)或曲面的擬合,所不同的是,這里用作基函數(shù)的是非線性的神經(jīng)網(wǎng)絡(luò)函數(shù),而原來(lái)數(shù)學(xué)中用的則是多項(xiàng)式、三角多項(xiàng)式、B-spline、一般spline以及小波函數(shù)等的線性組合。
由于神經(jīng)網(wǎng)絡(luò)的非線性和復(fù)雜性(要用許多結(jié)構(gòu)參數(shù)和連接權(quán)值來(lái)描述),它有更強(qiáng)的表達(dá)能力,即從給定的神經(jīng)網(wǎng)絡(luò)函數(shù)族中可能找到對(duì)特定數(shù)據(jù)集擬合得更好的神經(jīng)網(wǎng)絡(luò)。這相信正是深度學(xué)習(xí)方法能得到一系列很好結(jié)果的重要原因。直觀上很清楚,當(dāng)你有更多的選擇時(shí),你有可能選出更好的選擇。當(dāng)然,要從非常非常多的選擇中找到那個(gè)更好的選擇并不容易。

state-of-the-art,baseline,benchmark

表示“目前最好的”。比如state-of-the-art model,就是“目前領(lǐng)域內(nèi)最好的模型”。
偶爾會(huì)用SOTA 來(lái)簡(jiǎn)寫(xiě) state-of-the-art。
“舉個(gè)例子,NLP任務(wù)中BERT是目前的SOTA,你有idea可以超過(guò)BERT。那在論文中的實(shí)驗(yàn)部分你的方法需要比較的baseline就是BERT,而需要比較的benchmark就是BERT具體的各項(xiàng)指標(biāo)。”(知乎 許力文 MorrisXu)

知識(shí)

什么是知識(shí),知識(shí)是非結(jié)構(gòu)/半結(jié)構(gòu)化數(shù)據(jù)經(jīng)過(guò)處理后得到的結(jié)構(gòu)化數(shù)據(jù),比如下面提到的,關(guān)系抽取中的關(guān)系三元組,以及事件提取中的事件描述表格。相較文本,提煉出的結(jié)構(gòu)化的表格更容易查詢,體積也更小。

從文本中獲取知識(shí),有兩個(gè)重要的步驟,關(guān)系提取和事件提取。

關(guān)系抽取

https://blog.csdn.net/mch2869253130/article/details/117199565 (提到了一些經(jīng)典論文)
關(guān)系抽取主要做兩件事:

  • 識(shí)別文本中的subject和object(實(shí)體識(shí)別任務(wù))
  • 判斷這兩個(gè)實(shí)體屬于哪種關(guān)系(關(guān)系分類)

全監(jiān)督關(guān)系抽取任務(wù)并沒(méi)有實(shí)體識(shí)別這一子任務(wù),因?yàn)閿?shù)據(jù)集中已經(jīng)標(biāo)出了subject實(shí)體和object實(shí)體分別是什么,所以全監(jiān)督的關(guān)系抽取任務(wù)更像是做分類任務(wù)。模型的主體結(jié)構(gòu)都是特征提取器+關(guān)系分類器。特征提取器比如CNN,LSTM,GNN,Transformer和BERT等。關(guān)系分類器用簡(jiǎn)單的線性層+softmax即可。

相對(duì)全監(jiān)督,也有半監(jiān)督?;A(chǔ)是距離監(jiān)督假設(shè):如果知識(shí)庫(kù)中的實(shí)體對(duì)之間存在關(guān)系,那么每個(gè)包含該實(shí)體對(duì)的文檔都會(huì)表達(dá)該關(guān)系。這個(gè)假設(shè)太強(qiáng),因此提出多示例學(xué)習(xí)和多種降噪方法。

關(guān)系提取,是為了獲得(主體,關(guān)系,客體)的三元組。關(guān)系提取的發(fā)展,先是全監(jiān)督,全監(jiān)督的問(wèn)題主要是數(shù)據(jù)標(biāo)注不足,于是提出半監(jiān)督,半監(jiān)督的主要問(wèn)題是假設(shè)太強(qiáng)、噪聲太大,更前沿的研究聚焦于如何弱化假設(shè)和降噪。深度學(xué)習(xí)可以用于全監(jiān)督關(guān)系提取。

事件提取

指定schema(感興趣的類型,事件觸發(fā)詞、要素(如時(shí)間地點(diǎn)人物)),然后判斷類型、提取要素,從而將文本變成表格。

事件提取,識(shí)別特定類型的事件,并把事件中擔(dān)任既定角色的要素找出來(lái)。比如說(shuō),識(shí)別“企業(yè)成立”這一事件,需要靠事件觸發(fā)詞“成立”“創(chuàng)辦”,需要提取出時(shí)間、地點(diǎn)、人物、注冊(cè)資金等要素。傳統(tǒng)上需要外部NLP工具(如依存分析、句法分析、詞性標(biāo)注),有時(shí)還需要人工設(shè)計(jì)特征。使用深度學(xué)習(xí)進(jìn)行事件提取則可以減少對(duì)外部NLP工具的依賴,并自動(dòng)提取特征。

誤差累積

一個(gè)常見(jiàn)的老大難問(wèn)題(如果沒(méi)啥可說(shuō)的,可以提一下。不過(guò)也確實(shí)有針對(duì)這個(gè)問(wèn)題的工作。)
所有的pipeline式的方法都會(huì)有這個(gè)問(wèn)題。簡(jiǎn)單來(lái)說(shuō),如果前面的步驟錯(cuò)了,后面的步驟只會(huì)是錯(cuò)上加錯(cuò)。
相應(yīng)的,有joint式的方法。中文可分別譯作流水線模型和聯(lián)合模型。

零樣本學(xué)習(xí)

屬于遷移學(xué)習(xí)。利用類別的高維語(yǔ)義特征(有尾巴、有條紋,標(biāo)簽空間)代替樣本的低維特征(圖像特征,特征空間),使得訓(xùn)練出來(lái)的模型具有遷移性。
低維升高維很類似接近人類的思考過(guò)程,感覺(jué)是人類比能力的基礎(chǔ)。
傳統(tǒng)上,模型需要某類型足夠多的數(shù)據(jù),才能足夠了解一個(gè)類,才能判斷新物體是否屬于這個(gè)類。
最初,令輸入都是未知類(即測(cè)試集與訓(xùn)練集沒(méi)有交集)。但實(shí)用價(jià)值有限。后來(lái)發(fā)展,輸入中可以有已知類也可以有未知類。

集成學(xué)習(xí)

思路是博采眾長(zhǎng)。
按學(xué)習(xí)器的種類,可以分為同質(zhì)和異質(zhì)。
按學(xué)習(xí)器間的依賴關(guān)系,可以分為串行和并行。

同質(zhì)常用的模型是cart決策樹(shù)和神經(jīng)網(wǎng)絡(luò)。
串行的代表是boosting,使前面學(xué)習(xí)器誤差率高的樣本,會(huì)獲得更大的權(quán)重。
并行的代表是bagging。隨機(jī)森林使bagging的特殊情況,其學(xué)習(xí)器都是決策樹(shù)。

除了學(xué)習(xí)器的種類和依賴,還需要考慮如何結(jié)合。可以用平均法、投票法、學(xué)習(xí)法。
學(xué)習(xí)法是指,用多個(gè)初學(xué)習(xí)器的輸出,作為次學(xué)習(xí)器的輸入。

敏感詞審核

一般使用DFA算法。

用于文本審查的神經(jīng)網(wǎng)絡(luò)算法

考慮到對(duì)上下文關(guān)聯(lián)的分析,神經(jīng)網(wǎng)絡(luò)采取LSTM long short-term memory。
LSTM是RNN recurrent neural network的特殊類型,利用RNN上下層的動(dòng)態(tài)相關(guān)性,學(xué)習(xí)長(zhǎng)期依賴信息,
因此LSTM對(duì)文本中的上下文關(guān)系有較好的理解。

TextCNN是利用CNN來(lái)處理文本分類任務(wù),它利用CNN捕捉局部相關(guān)性的特點(diǎn),來(lái)提取句子中的關(guān)鍵信息,從而進(jìn)一步進(jìn)行文本樣本的特征提取,實(shí)現(xiàn)更準(zhǔn)確的分類。CNN+LSTM的模型是結(jié)合CNN和LSTM網(wǎng)絡(luò),先使用CNN做局部特征提取,再用LSTM提取上下文關(guān)聯(lián)信息。

準(zhǔn)確率,精確率,召回率,F(xiàn)-measure

機(jī)器學(xué)習(xí)性能評(píng)估的參數(shù)(來(lái)自知乎答主Charles Xiao)
假設(shè)我們手上有60個(gè)正樣本,40個(gè)負(fù)樣本,我們要找出所有的正樣本,系統(tǒng)查找出50個(gè),其中只有40個(gè)是真正的正樣本,計(jì)算上述各指標(biāo)。
TP: 將正類預(yù)測(cè)為正類數(shù) 40
FN: 將正類預(yù)測(cè)為負(fù)類數(shù) 20
FP: 將負(fù)類預(yù)測(cè)為正類數(shù) 10
TN: 將負(fù)類預(yù)測(cè)為負(fù)類數(shù) 30
準(zhǔn)確率(accuracy) = 預(yù)測(cè)對(duì)的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%
精確率(precision) = TP/(TP+FP) = 80%,
召回率(recall) = TP/(TP+FN) = 2/3,

F-measure是精確率和召回率的調(diào)和平均。

應(yīng)用場(chǎng)景,
準(zhǔn)確率不適合樣本不均衡的情況,假如有90%的正樣本,那么常數(shù)函數(shù)也能有90%的準(zhǔn)確率。
精確率也叫查準(zhǔn)率。當(dāng)你說(shuō)它為正的時(shí)候,我有多大把握相信你。
召回率適合只關(guān)心一類樣本的情況,比如網(wǎng)貸違約,寧可誤報(bào)也不能漏報(bào)。召回率也叫查全率。你找出了多少正類。
PR曲線指的是precision和recall,很難兩全。
至于ROC,可以解決樣本不均衡的情況,它考慮的是正查準(zhǔn)率和1-負(fù)查準(zhǔn)率。

Inter-rater agreement Kappas

inter-rater agreement,評(píng)分者之間的共識(shí)。
可以從側(cè)面反映人工標(biāo)注的質(zhì)量。Kappas越高,說(shuō)明評(píng)分者越一致。

RNN和LSTM

下面這個(gè)鏈接,是我目前看到的講得最清楚的。
https://zhuanlan.zhihu.com/p/40119926

hard-limit

機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能

NLP的預(yù)訓(xùn)練

在互聯(lián)網(wǎng)上有一些基于海量語(yǔ)料(例如中文維基百科等)的預(yù)訓(xùn)練詞向量。但是一方面由于詞庫(kù)過(guò)于龐大,勢(shì)必要用更多維數(shù)去表示,詞向量就會(huì)更加冗長(zhǎng)和稀疏;另一方面,某些詞在特定場(chǎng)景具有特指的含義。因此,有時(shí)通用的預(yù)訓(xùn)練詞向量不適合直接拿來(lái)使用,而應(yīng)基于場(chǎng)景問(wèn)題域本身的語(yǔ)料重新進(jìn)行詞向量訓(xùn)練。

詞嵌入中的K

詞向量的維數(shù)K是一個(gè)超參數(shù)。K的取值與語(yǔ)料內(nèi)包含的不同詞匯個(gè)數(shù)相關(guān),可依據(jù)經(jīng)驗(yàn)或由封裝函數(shù)進(jìn)行優(yōu)化設(shè)置。

NLP輸入數(shù)據(jù)處理

輸入的維數(shù)要相同,而句子包含的詞數(shù)不同。一種方法是截?cái)嗪脱a(bǔ)齊。

神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)

keras的封裝程度比tensorflow更高,tensorflow比pytorch的封裝程度更高。

特征提取

相比之前提到的關(guān)系提取和事件提取,特征提取的應(yīng)用更加廣泛。分類、聚類都可能用到。
一是對(duì)原始數(shù)據(jù)進(jìn)行某種變換;二是在變換的過(guò)程中使不同的類別(或不同樣本)具有相對(duì)較好的區(qū)分性。
效果上,對(duì)原始數(shù)據(jù)進(jìn)行了提煉和加工。一般來(lái)說(shuō),特征提取的特征維數(shù)會(huì)低于原始特征,體積會(huì)大大縮小。
主成分分析(Principal components analysis,PCA)與線性鑒別分析(Linear Discriminant Analysis,LDA)最為經(jīng)典。

LDA

Linear Discriminant Analysis和Quadratic Discriminant Analysis并列。
LDA會(huì)將k維數(shù)據(jù)投影到k-1維的超平面,因此也具有demension reduction的作用。不同于PCA會(huì)選擇數(shù)據(jù)變化最大的方向,LDA會(huì)主要以類別為思考因素,使得投影后的樣本盡可能可分。
使得相同類別在該超平面上的投影之間的距離盡可能近,同時(shí)不同類別的投影之間的距離盡可能遠(yuǎn),在LDA中,我們假設(shè)每一個(gè)類別的數(shù)據(jù)服從高斯分布,且具有相同協(xié)方差矩陣。
Quadratic Discriminant Analysis類似于LDA,不同的地方是它可以形成非線性的邊界,并且不同的類所屬的高斯分布具有不同的協(xié)方差矩陣。
思想和triplet loss有點(diǎn)像,都是最小化類內(nèi)間距 ,最大化類間間距。

PCA

經(jīng)典的降維方法。
會(huì)產(chǎn)生一些新特性,新特性可以是舊特性的線性組合。從而可以用更少的維數(shù)、很少的信息損失來(lái)描述物件。
方差,其實(shí)就是辨識(shí)度的代名詞。我們尋找最有辨識(shí)度的特征,就是尋找一種測(cè)度,使樣本之間的方差最大。
誤差,其實(shí)就是信息損失的代名詞。我們希望降維過(guò)后仍能“重建”原始數(shù)據(jù)。
看下圖,想象原點(diǎn)固定、旋轉(zhuǎn)的平面坐標(biāo)系。什么時(shí)候樣本的方差最大?
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
旋轉(zhuǎn)的過(guò)程,就是將舊的兩個(gè)指標(biāo)進(jìn)行不同比例線性組合的過(guò)程?;褪侵笜?biāo),就是測(cè)度。
達(dá)到最大方差的同時(shí),也達(dá)到了最小誤差。
方差是投影點(diǎn)到投影線中心的距離(的平方),誤差是原點(diǎn)到投影點(diǎn)的距離(的平方),其和始終為原點(diǎn)到投影線中心的距離(勾股定理)。所以最大方差,最小誤差會(huì)同時(shí)達(dá)到。
至于為什么要投影,投影其實(shí)就是降維了。

從上面的例子也可以看出,PCA可以合并原始特征中線性相關(guān)的特征。至于非線性相關(guān),可以了解一下kernel PCA。
關(guān)于PCA更嚴(yán)謹(jǐn)?shù)脑?,需要了解協(xié)方差矩陣和奇異值分解。

CRF 條件隨機(jī)場(chǎng)

隨機(jī)場(chǎng),場(chǎng)中有若干位置,按分布給位置賦值,則為隨機(jī)場(chǎng)。
馬爾科夫隨機(jī)場(chǎng),每一個(gè)位置的賦值只與相鄰位置有關(guān)。
條件隨機(jī)場(chǎng),輸入為單變量X,輸出為單變量Y的馬爾科夫隨機(jī)場(chǎng)。
如果條件隨機(jī)場(chǎng)的輸入x和輸出y有相同的結(jié)構(gòu),則為線性鏈條件隨機(jī)場(chǎng)。
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
總結(jié)一下就是,tk是局部特征函數(shù)(節(jié)點(diǎn)與相鄰節(jié)點(diǎn),可見(jiàn)馬爾可夫性),sk是節(jié)點(diǎn)特征函數(shù)(節(jié)點(diǎn)),兩者前面的系數(shù)代表可信度,Z是規(guī)范化。

一個(gè)應(yīng)用是詞性標(biāo)注。因?yàn)樵~性標(biāo)注適合用條件隨機(jī)場(chǎng)建模(也具有馬爾可夫性)。

DL和NLP當(dāng)年為什么不火

其實(shí)技術(shù)成熟度只是一個(gè)方面。另一個(gè)重要原因是沒(méi)有數(shù)據(jù)。
數(shù)據(jù)量級(jí)的發(fā)展速度,我認(rèn)為是快于所謂“技術(shù)”的發(fā)展速度的。
早年,NLP的數(shù)據(jù)很多都來(lái)自報(bào)紙這樣的傳統(tǒng)媒體。

詞袋bow

把句子看成單詞的集合,統(tǒng)計(jì)詞出現(xiàn)的次數(shù)。
將非結(jié)構(gòu)化的語(yǔ)言轉(zhuǎn)化為結(jié)構(gòu)化的map。
統(tǒng)計(jì)所有詞會(huì)導(dǎo)致維度過(guò)高,也就是map中key太多,而且會(huì)很稀疏(平均value很?。?。去掉停止詞是方法之一。
詞袋模型的應(yīng)用之一是,結(jié)合距離定義,來(lái)對(duì)比文本相似度。
詞袋模型的問(wèn)題是,無(wú)法反映詞之間的關(guān)聯(lián)(比如主賓互換后仍然相似),而且無(wú)法捕捉否定關(guān)系(肯定句和否定句仍然相似)。
同樣是詞頻,TF-IDF則多考慮了逆文檔頻率,與BoW不同。

n-gram

基于統(tǒng)計(jì),判斷連詞成句的概率。
n是滑動(dòng)窗口size,一般取2或者3,太大時(shí)有V的n次方種可能。詞袋是n=1。
一個(gè)句子出現(xiàn)的概率,等于一連串條件概率的乘積。馬爾可夫性可以簡(jiǎn)化計(jì)算。
n-gram的應(yīng)用之一是智能聯(lián)想。
當(dāng)然,n-gram和詞袋一樣,n-gram統(tǒng)計(jì)結(jié)果也能作為文本特征,用于分類任務(wù)。
有character n-gram和token n-gram之分。

依存分析

處于支配地位的成分稱之為支配者(governor,regent,head),而處于被支配地位的成分稱之為從屬者(modifier,subordinate,dependency)。
以謂語(yǔ)為中心(如下圖的cancel),研究句子中詞與詞的關(guān)系。
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
(圖來(lái)自CSDN flying_1314)

type dependency

也是分析句子中詞與詞的關(guān)系,出現(xiàn)頻率很高。與依存分析的關(guān)系尚不清楚。
記得看stanford manual。

情感分析

這其實(shí)是NLP的一個(gè)簡(jiǎn)化子問(wèn)題,把“理解”這個(gè)高級(jí)而難以實(shí)現(xiàn)的目標(biāo),變成了三分類問(wèn)題(負(fù)面、中性、正面)。
情感分析的目標(biāo)是,找出文檔中的觀點(diǎn),甚至觀點(diǎn)的限定條件和原因。
觀點(diǎn),就是(評(píng)價(jià)對(duì)象,對(duì)象屬性,情感強(qiáng)度,評(píng)價(jià)者身份,時(shí)間)。
情感強(qiáng)度可以量化,比如-2~+2。表示負(fù)面/正面情感。
主要應(yīng)用就是商品和服務(wù)的評(píng)論分析。西方還可用于選舉分析等。
諷刺句是情感分析的難點(diǎn)。

社交媒體文本分析

長(zhǎng)度短,不正式,網(wǎng)絡(luò)用語(yǔ),表情
針對(duì)社交媒體的不規(guī)范性,一般需要文本標(biāo)準(zhǔn)化和nlp工具再訓(xùn)練。
文本標(biāo)準(zhǔn)化的意思,比如heyyyyyy要規(guī)范成hey。
nlp工具再訓(xùn)練的意思,分詞器POS/依存語(yǔ)法分析器/命名實(shí)體識(shí)別器NER等工具都是由報(bào)紙等傳統(tǒng)數(shù)據(jù)訓(xùn)練出來(lái)的,需要在此基礎(chǔ)上用社交媒體文本進(jìn)行再訓(xùn)練。

wordnet

英文近義詞詞典。來(lái)自普林斯頓。

相對(duì)熵(KL散度),交叉熵,JS散度,Wasserstein推土機(jī)距離

https://zhuanlan.zhihu.com/p/25071913
https://zhuanlan.zhihu.com/p/74075915
叫熵已經(jīng)不太直觀了,直觀上應(yīng)該叫距離(不過(guò)不滿足距離的對(duì)稱性和三角不等式)。作用是衡量?jī)蓚€(gè)概率分布的距離,衡量預(yù)測(cè)值和實(shí)際值的差異。
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
可以看見(jiàn)交叉熵和KL散度之間相差一個(gè)常數(shù)(實(shí)際值的熵)。
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
JS散度是KL散度的變體,解決對(duì)稱性的問(wèn)題。

推土機(jī)距離的式子我都看不懂。直覺(jué)上上面兩篇文章都很好。

Wasserstein距離相比KL散度、JS散度的優(yōu)越性在于,即便兩個(gè)分布沒(méi)有重疊,Wasserstein距離仍然能夠反映它們的遠(yuǎn)近。
可以看出,兩個(gè)分布沒(méi)有重疊時(shí),KL會(huì)是0,這就是梯度消失。
推土機(jī)距離就是為了解決這個(gè)問(wèn)題。WGAN在2017年提出。

浪潮起因

第一,硬件發(fā)展,如GPU。
第二,數(shù)據(jù)量來(lái)了。
第三,深度學(xué)習(xí)能從歐氏空間數(shù)據(jù)中提取潛在特征。

正則化項(xiàng)

翻譯成正則不好,看不出“額外的約束”的意思。
目的是懲罰,比如懲罰復(fù)雜模型,懲罰譯文長(zhǎng)度。
比如說(shuō)L1范數(shù),是參數(shù)系數(shù)絕對(duì)值的和。所以參數(shù)較少的正則項(xiàng)就會(huì)較小。從幾何角度(單位矩形)看,容易出0項(xiàng),也就是能讓參數(shù)稀疏。
L2范數(shù)則沒(méi)有稀疏的作用(從幾何角度看),但它能避免大參數(shù)(12+32>22+22),讓參數(shù)普遍較小。如果有部分參數(shù)過(guò)大,抗擾動(dòng)能力就不好。
正則化項(xiàng)一般有系數(shù)λ。

歐拉公式

機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能

正弦波

機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能

傅里葉級(jí)數(shù)

周期函數(shù)可以表示為正弦波的疊加。
周期性,使有限能代表無(wú)限。
頻域分析的結(jié)果就是,告訴你具體用哪些正弦波能疊出來(lái)。
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
傅氏變換將信號(hào)投影到正交空間,看上圖就能理解了。
從側(cè)面看只有振幅信息,從下面看可以做出相位譜。
傅里葉級(jí)數(shù),時(shí)域中周期、連續(xù),頻域中非周期、離散。

傅里葉變換

將一個(gè)時(shí)域非周期的連續(xù)信號(hào)(周期無(wú)窮大),轉(zhuǎn)換為一個(gè)在頻域非周期的連續(xù)信號(hào)。
對(duì)于有限區(qū)間非周期函數(shù),可以通過(guò)復(fù)制的方法變成周期函數(shù)。
將函數(shù)投影到正交空間,在正交空間解決問(wèn)題,再逆變換。典型例子是卷積定理,嫌卷積麻煩,那就先做傅氏變換,在正交空間做乘法,然后再反變換。

傅里葉變換的應(yīng)用

濾波,去除特定的頻率。在頻域很容易做到,減少一根棍子就行。
解微分方程、計(jì)算卷積。復(fù)變函數(shù)課程中大家都學(xué)過(guò)。原理是微分積分變成了乘除法。想不起來(lái)了的話,可以翻一翻“常用傅里葉變換表”找找感覺(jué)。

卷積

兩個(gè)函數(shù)參與卷積,輸出另一個(gè)函數(shù)。
一個(gè)輸入是輸入信號(hào),另一個(gè)輸入代表系統(tǒng)。
翻轉(zhuǎn),乘積,滑動(dòng)。在使用特定的卷積核時(shí),可以看成滑動(dòng)平均。
一個(gè)域中的卷積相當(dāng)于另一個(gè)域中的乘積。
任意信號(hào)f(t)可表示為沖激序列之和,跟沖激函數(shù)的卷積。
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
積分,就是先分割再累加??纯瓷鲜?,可以理解,跟沖激函數(shù)卷積,相當(dāng)于先分割為無(wú)數(shù)脈沖,再累加。
t決定兩個(gè)函數(shù)的相對(duì)位置。在不同的相對(duì)位置下,求重疊面積,就得到輸出函數(shù)在此位置的值。
據(jù)wiki,整數(shù)乘法和多項(xiàng)式乘法都是卷積。
圖像處理中,用作圖像模糊、銳化、邊緣檢測(cè)。
統(tǒng)計(jì)學(xué)中,加權(quán)的滑動(dòng)平均是一種卷積。
概率論中,兩個(gè)統(tǒng)計(jì)獨(dú)立變量X與Y的和的概率密度函數(shù)是X與Y的概率密度函數(shù)的卷積。

fine tuning

指微調(diào)。

RELU/sigmoid/tanh

據(jù)wiki,增強(qiáng)網(wǎng)絡(luò)的非線性特性。ReLU函數(shù)更受青睞,這是因?yàn)樗梢詫⑸窠?jīng)網(wǎng)絡(luò)的訓(xùn)練速度提升數(shù)倍,而并不會(huì)對(duì)模型的泛化準(zhǔn)確度造成顯著影響。

池化層,池化

非線性形式的降采樣?!白畲蟪鼗∕ax pooling)”是最為常見(jiàn)的。它是將輸入的圖像劃分為若干個(gè)矩形區(qū)域,對(duì)每個(gè)子區(qū)域輸出最大值。

卷積層,邊緣探測(cè)

卷積層可以發(fā)現(xiàn)邊緣。
邊緣探測(cè)的基本過(guò)程,先灰度化,再用低通濾波器降噪,用高通濾波器提取邊緣,最后二值化。如圖。

機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
在CNN用于圖像處理時(shí),卷積核=濾波器=矩陣,圖像卷積如圖:
機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí),研究生,機(jī)器學(xué)習(xí),自然語(yǔ)言處理,人工智能
從結(jié)果來(lái)看,輸出的是原圖的邊緣。這其實(shí)也是一種特征提取。網(wǎng)絡(luò)的每一層輸出都可以視為特征。
學(xué)習(xí)的過(guò)程,其實(shí)是尋找合適的卷積核的過(guò)程(對(duì)于邊緣檢測(cè),已經(jīng)有一些廣泛使用的卷積核)。卷積核就是參數(shù)矩陣。

channel 通道

灰度圖像,只有一個(gè)通道。RGB是三通道。

歐氏空間、grid、結(jié)構(gòu)化數(shù)據(jù)

說(shuō)的都是一件事情。

特征分解和譜分解

幾乎一樣。但譜分解形式上是和式,能讓人聯(lián)想到傅里葉級(jí)數(shù)。

圖的拉普拉斯矩陣為什么叫拉普拉斯矩陣

https://zhuanlan.zhihu.com/p/362416124
關(guān)鍵是其中拉普拉斯算子的推廣。

高斯分布:最大熵?

最混亂的應(yīng)該是均勻分布。不過(guò)在限制方差的時(shí)候,高斯分布是最大熵模型。
印象中信息論好像學(xué)過(guò)同義的定理。
有人說(shuō),高斯分布是“無(wú)知”的。對(duì)此我的理解是,它是“穩(wěn)妥”、“不武斷”的,如果你只知道均值和方差,別人來(lái)問(wèn)你數(shù)據(jù)是什么分布,你如何回答?你回答相應(yīng)參數(shù)的高斯分布,會(huì)比較穩(wěn)妥。因?yàn)檫@一回答沒(méi)有做其它的假設(shè),沒(méi)有臆斷,沒(méi)有憑空制造什么先驗(yàn)信息。最大熵意味著這是你能給出的,最寬泛、最不確定的答案,因而說(shuō)它“無(wú)知”、“穩(wěn)妥”。

triplet loss

triplet三元組,包括a anchor,p positive,n negative。思想是讓a和p的距離小,a和n的距離大。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-664326.html

到了這里,關(guān)于機(jī)器學(xué)習(xí)、cv、nlp的一些前置知識(shí)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【研究生復(fù)試】計(jì)算機(jī)&軟件工程&人工智能研究生復(fù)試——資料整理(速記版)——計(jì)算機(jī)網(wǎng)絡(luò)

    【研究生復(fù)試】計(jì)算機(jī)&軟件工程&人工智能研究生復(fù)試——資料整理(速記版)——計(jì)算機(jī)網(wǎng)絡(luò)

    1、JAVA 2、計(jì)算機(jī)網(wǎng)絡(luò) 3、計(jì)算機(jī)體系結(jié)構(gòu) 4、數(shù)據(jù)庫(kù) 5、計(jì)算機(jī)租場(chǎng)原理 6、軟件工程 7、大數(shù)據(jù) 8、英文 自我介紹 序列號(hào):TCP所傳送的每段數(shù)據(jù)都有標(biāo)有序列號(hào),避免亂序問(wèn)題 發(fā)送端確認(rèn)應(yīng)答、超時(shí)重傳:解決丟包問(wèn)題 滑動(dòng)窗口:避免速度過(guò)快或多慢丟包和亂序問(wèn)題 HTTP是無(wú)

    2024年02月19日
    瀏覽(92)
  • 研究生安排

    研一 看論文不懂先記著 論文一定多看的,建議300篇論文,500最好。 選題的時(shí)候要心里有譜,先找小論文,再找大論文 研二 確定研究方向和目標(biāo) 和老師切磋研究的是什么 明確要做的東西是什么,是否已經(jīng)明確要做什么,確定變量是什么,是什么樣方式實(shí)現(xiàn),條件和設(shè)備能否

    2024年02月08日
    瀏覽(90)
  • 成功上岸國(guó)科大研究生!

    ?Datawhale干貨? 作者:羅龍,江西財(cái)經(jīng)大學(xué),Datawhale優(yōu)秀助教 中國(guó)科學(xué)院大學(xué)(University of Chinese Academy of Sciences),簡(jiǎn)稱“國(guó)科大”,是一所以研究生教育為主的科教融合、獨(dú)具特色的高等學(xué)校,主校區(qū)位于北京市。它是國(guó)家“雙一流”建設(shè)高校,入選“基礎(chǔ)學(xué)科拔尖學(xué)生培

    2024年02月02日
    瀏覽(111)
  • 快速了解機(jī)器視覺(jué)(CV)基礎(chǔ)知識(shí)

    快速了解機(jī)器視覺(jué)(CV)基礎(chǔ)知識(shí)

    最近再查一些基礎(chǔ)知識(shí)的時(shí)候看見(jiàn)了幾篇文章寫(xiě)得很棒(在這篇文章的結(jié)束我會(huì)給出參考鏈接),然后我把他們整合了一下,跟大家分享,希望能有幫助: a.圖片分類 b.目標(biāo)定位 c.語(yǔ)義分割 d.實(shí)例分割 ①語(yǔ)義鴻溝(semantic gap) 人類可以輕松地從圖像中識(shí)別出目標(biāo),而計(jì)算機(jī)看到

    2024年02月09日
    瀏覽(23)
  • 2022研究生數(shù)學(xué)建模ABCDEF思路

    2022研究生數(shù)學(xué)建模ABCDEF思路

    A題:A題偏數(shù)理知識(shí)。建議數(shù)學(xué)專業(yè)同學(xué)做,其它專業(yè)同學(xué)不要做了,研究生數(shù)學(xué)知識(shí)需要扎實(shí)。 B題:切割優(yōu)化問(wèn)題。相對(duì)比A簡(jiǎn)單一點(diǎn)。B題我要做兩天,雖然難但是感興趣,做完發(fā)出來(lái),以前我好像做過(guò)這個(gè)題,需要可以私聊。 C題:這個(gè)調(diào)度優(yōu)化問(wèn)題。。不太建議這個(gè)題

    2024年02月09日
    瀏覽(589)
  • 讀研規(guī)劃,準(zhǔn)研究生們看看哦!(轉(zhuǎn)載)

    轉(zhuǎn)載一篇老文章,文章大概08年就出現(xiàn)在網(wǎng)絡(luò)上了,最原始的鏈接已經(jīng)找不到了。 上海大學(xué)一位姓崔的老師說(shuō):\\\"不可否認(rèn)的是,研究生面臨著比較大的生存壓力,但是要平衡自己的方向,在沒(méi)有生存威脅的情況下,要專注于學(xué)習(xí)。\\\"他表示,在社會(huì)心理普遍比較浮躁的情況下

    2024年02月05日
    瀏覽(105)
  • 杭電計(jì)算機(jī)研究生復(fù)試題

    杭電計(jì)算機(jī)研究生復(fù)試題

    一、數(shù)據(jù)結(jié)構(gòu) 線性存儲(chǔ)和鏈?zhǔn)酱鎯?chǔ)優(yōu)缺點(diǎn)比較 1.1. 線性表的存儲(chǔ)結(jié)構(gòu),優(yōu)缺點(diǎn) 順序存儲(chǔ)結(jié)構(gòu)可以直接存取數(shù)據(jù)元素,方便靈活、效率高,但插入、刪除操作時(shí)將會(huì)引起元素的大量移動(dòng),因而降低效率。 鏈接存儲(chǔ)結(jié)構(gòu)中內(nèi)存采用動(dòng)態(tài)分配,利用率高,但需增設(shè)指示結(jié)點(diǎn)之間關(guān)

    2023年04月16日
    瀏覽(99)
  • Python研究生組藍(lán)橋杯(省二)參賽感受

    Python研究生組藍(lán)橋杯(省二)參賽感受

    為什么參加藍(lán)橋杯? 今年是讀研的第一年,看著我簡(jiǎn)歷上的獲獎(jiǎng)經(jīng)歷“優(yōu)秀學(xué)生干部”“優(yōu)秀志愿者”“優(yōu)秀畢業(yè)生”......大學(xué)四年,我竟然沒(méi)有一次競(jìng)賽類的經(jīng)歷,也沒(méi)有拿得出手的項(xiàng)目,我陷入了深深的焦慮。 聽(tīng)說(shuō)藍(lán)橋杯的門(mén)檻相對(duì)較低,對(duì)我這種小白比較友好,于是

    2024年02月02日
    瀏覽(93)
  • 研究生往邊緣計(jì)算方向走,需要哪些基礎(chǔ)?

    研究生往邊緣計(jì)算方向走,需要哪些基礎(chǔ)?

    近期很多朋友在邊緣計(jì)算社區(qū)后臺(tái)留言咨詢研究生往邊緣計(jì)算方向走,該做那些準(zhǔn)備之類的問(wèn)題,然而一百個(gè)人有一百種想法,大家看法都不一樣。為此,我們邀請(qǐng)國(guó)內(nèi)比較活躍的幾個(gè)邊緣計(jì)算相關(guān)高校團(tuán)隊(duì)來(lái)一起回答這些問(wèn)題。 問(wèn)題主要有三個(gè): ① 研究生往邊緣計(jì)算方向

    2024年01月25日
    瀏覽(90)
  • 一文看懂完整的研究生生活規(guī)劃

    一文看懂完整的研究生生活規(guī)劃

    ? ? ? ?很多人在剛從本科步入研究生生活的時(shí)候,總是對(duì)于自己三年的研究生生活沒(méi)有清晰的規(guī)劃,總是在各種浪費(fèi)時(shí)間,沒(méi)有拿到想要的東西,也沒(méi)有學(xué)到想學(xué)的東西,亦或是沒(méi)有找到理想的工作,最后草草的畢業(yè)。這個(gè)時(shí)候我們就應(yīng)該對(duì)于自己的研究生生活有個(gè)清晰的

    2024年02月08日
    瀏覽(90)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包