知識點是通過老師上課ppt整理,對于期末復(fù)習(xí)的基本考點都有涉及,以及計算題部分都有例題進行講解,希望能幫助大家更好的復(fù)習(xí)。
人工智能
一、緒論
- 智能的主要流派:
- 思維理論:智能的核心是思維
- 知識閾值理論:智能取決于知識的數(shù)量及一般化程度
- 進化理論:用控制取代知識的表示
- 智能的特征:
- 感知能力
- 記憶與思維能力
- 邏輯思維(抽象思維)
- 依靠邏輯進行思維。
思維過程是串行的。
容易形式化。
思維過程具有嚴(yán)密性、可靠性。
- 依靠邏輯進行思維。
- 形象思維(直感思維)
- 依據(jù)直覺。
思維過程是并行協(xié)同式的。
形式化困難。
在信息變形或缺少的情況下仍有可能得到比較滿意的結(jié)果
- 依據(jù)直覺。
- 頓悟思維(靈感思維)
- 不定期的突發(fā)性。
非線性的獨創(chuàng)性及模糊性。
穿插于形象思維與邏輯思維之中
- 不定期的突發(fā)性。
- 邏輯思維(抽象思維)
- 學(xué)習(xí)能力
- 行為能力
二、知識表示與知識圖譜
-
知識的特性:
- 相對正確性
- 不確定性
- 可表示性與可利用性
-
知識的分類:
- 按知識的范圍:
- 常識性知識
- 領(lǐng)域性知識
- 按知識的作用以表示劃分:
- 事實性知識
- 過程性知識
- 控制性知識
- 按知識的確定性:
- 確定性
- 不確定性
- 按人類的思維:
- 邏輯性知識
- 形象性知識
- 按知識的獲取方式:
- 顯性知識
- 隱性知識
- 按知識的范圍:
-
知識表示:就是把知識用計算機可接受的符號并以某種形式描述出來。
-
狀態(tài)空間表示法(后續(xù)會有詳細展開)
-
一階謂詞邏輯表示法(離散學(xué)過,就不再整理)
-
產(chǎn)生式表示法
- 確定性規(guī)則知識的產(chǎn)生式表示
- 不確定性規(guī)則知識的產(chǎn)生式表示
- 確定性事實性知識的產(chǎn)生式表示
- 不確定性事實性知識的產(chǎn)生式表示
- 確定性規(guī)則知識的產(chǎn)生式表示
-
產(chǎn)生式系統(tǒng)
-
規(guī)則庫RB(Rule Base):用于描述相應(yīng)領(lǐng)域內(nèi)知識的產(chǎn)生式集合【也稱知識庫KB:用于存放與求解問題有關(guān)的所有規(guī)則的集合】
- 作用:是產(chǎn)生式系統(tǒng)問題求解的基礎(chǔ)
- 要求:知識的完整性、一致性、準(zhǔn)確性、靈活性和知識組織的合理性
-
綜合數(shù)據(jù)庫DB(Data Base):一個用于存放問題求解過程中各種當(dāng)前信息的數(shù)據(jù)結(jié)構(gòu)。
-
推理機:由一組程序組成,負責(zé)整個產(chǎn)生式系統(tǒng)的運行,實現(xiàn)對問題的求解。
-
推理:將規(guī)則與事實進行匹配,所謂匹配就是將規(guī)則的前提與綜合數(shù)據(jù)庫中的已知事實進行比較
-
沖突消解:匹配成功的規(guī)則可能不止一條,發(fā)送沖突,推理機必須按照某種策略選擇其中一條執(zhí)行。
-
執(zhí)行規(guī)則:執(zhí)行某一規(guī)則時,如果其右部是一個或多個結(jié)論,則把這些結(jié)論加入到綜合數(shù)據(jù)庫中:如果其右部是一個或多個操作,則執(zhí)行這些操作。對于不確定性知識,在執(zhí)行每一條規(guī)則時還要按一定的算法計算結(jié)論的不確定性。
-
終止推理:檢查綜合數(shù)據(jù)庫中是否包含了最終結(jié)論,決定是否停止系統(tǒng)的運行。
-
產(chǎn)生式系統(tǒng)的例子(為了解產(chǎn)生式如何表示,為后面的計算做鋪墊)
-
產(chǎn)生式表示法的特點
- 優(yōu)點:自然性;模塊性;有效性;清晰性;
- 缺點:效率不高;不能表達結(jié)構(gòu)性知識;
- 適合產(chǎn)生式表示的知識:
- 領(lǐng)域知識間關(guān)系不密切,不存在結(jié)構(gòu)關(guān)系。
- 經(jīng)驗性及不確定性的知識,且相關(guān)領(lǐng)域中對這些知識沒有嚴(yán)格、統(tǒng)一的理論。
- 領(lǐng)域問題的求解過程可被表示為一系列相對獨立的操作,且每個操作可被表示為一條或多條產(chǎn)生式規(guī)則。
-
-
-
語義網(wǎng)絡(luò)表示法
-
語義網(wǎng)絡(luò):語義網(wǎng)絡(luò)是一種用實體及其語義關(guān)系來表達知識的有向圖。一個語義網(wǎng)絡(luò)主要包括了兩個部分:事件,以及事件之間的關(guān)系。
-
可以表示的知識關(guān)系:類屬關(guān)系(常用的屬性:Is-a;A-Kind-of;A-Member-of;Instance-of);包含關(guān)系(Part-of);屬性關(guān)系(Have;Can);時間關(guān)系(Before;After;At);位置關(guān)系(Located-at,Located-on,under,inside,outside);相近關(guān)系(Similar-to;Near-to);因果關(guān)系;組成關(guān)系
-
語義網(wǎng)絡(luò)表示例子
-
例題:
答案: -
特點:
- 結(jié)構(gòu)性
- 聯(lián)想性
- 自索引性
- 自然性
- 非嚴(yán)格性
-
-
知識圖譜
-
知識圖譜是用圖譜的形式表示知識
- 是一種揭示實體之間關(guān)系的語義網(wǎng)絡(luò)
- 多關(guān)系圖,由多種類型的節(jié)點和多種類型的邊來組成
-
相關(guān)概念:
- 知識庫(Knowledge Base)是人工智能的經(jīng)典概念之一。 最早作為專家系統(tǒng)(Expert System)的組成部分,用于實現(xiàn)決策推理。知識庫中的知識有很多種不同的形式,例如本體知識、關(guān)聯(lián)性知識、規(guī)則庫和案例知識等
- 鏈接數(shù)據(jù)(Linked Data)是由Tim Berners Lee 于2006年提出,為了強調(diào)語義互聯(lián)網(wǎng)的目的建立數(shù)據(jù)之間的鏈接,而非僅僅把結(jié)構(gòu)化的數(shù)據(jù)發(fā)布到網(wǎng)上。鏈接數(shù)據(jù)最接近于知識圖譜的概念
- 語義網(wǎng)絡(luò)(Semantic Network) 最早是1960年由認知科學(xué)家Allan M. Collins 作為知識表示的一種方法提出。其中WordNet是最典型的語義網(wǎng)絡(luò)。與知識圖譜相比,早期的語義網(wǎng)絡(luò)更加側(cè)重描述概念及其之間的關(guān)系,而知識圖譜更加強調(diào)數(shù)據(jù)或事物之間的鏈接
-
知識圖譜的邏輯結(jié)構(gòu)
- 模式層:數(shù)據(jù)模型是按照本體論的思想,勾畫出來的數(shù)據(jù)組織模式,數(shù)據(jù)模型可以展示數(shù)據(jù)的組織方式和相互關(guān)系。例如:創(chuàng)建動植物的數(shù)據(jù)模型,可以按照動植物的通用分類標(biāo)準(zhǔn),使用七個主要級別:界、門、綱、目、科、屬、種 。數(shù)據(jù)模型除了確定對象之間的分類、關(guān)系,還要明確對象的屬性。其中分類、關(guān)系反映了數(shù)據(jù)之間的關(guān)系特征,屬性反映了數(shù)據(jù)的內(nèi)在特征。不同類型的知識圖譜,組織數(shù)據(jù)的方式也有所不同,涉及到具體數(shù)據(jù)的內(nèi)容也有差別。比如對于一個人物來說,如果是歷史知識圖譜,可能人物數(shù)據(jù)的內(nèi)容主要側(cè)重于人物的生平,主要事跡,人物關(guān)系等,如果是文學(xué)知識圖譜,人物數(shù)據(jù)的內(nèi)容則會主要側(cè)重人物的主要作品,師承關(guān)系,作品流派等。
- 數(shù)據(jù)層:數(shù)據(jù)層中就是具體一條條的數(shù)據(jù),它是依據(jù)數(shù)據(jù)模型組織起來的。我們可以把數(shù)據(jù)模型看作是骨架,把具體數(shù)據(jù)看作是肌肉,兩部分共同組成了一個健壯的整體。知識以事實(fact)為單位存儲在圖數(shù)據(jù)庫,通常以“實體-關(guān)系-實體”或者“實體-屬性-值”三元組作為事實(fact)的基本表達方式。存儲在圖數(shù)據(jù)庫中的所有數(shù)據(jù)將構(gòu)成龐大的實體關(guān)系網(wǎng)絡(luò),形成知識的“圖譜”
-
知識圖譜的兩種構(gòu)建方式
- 自頂向下:自頂向下的構(gòu)建方式,是指先確定知識圖譜的數(shù)據(jù)模型,再根據(jù)模型去填充具體數(shù)據(jù)。數(shù)據(jù)模型的設(shè)計,是知識圖譜的頂層設(shè)計,根據(jù)知識圖譜的特點確定數(shù)據(jù)模型,就相當(dāng)于確定了知識圖譜收集數(shù)據(jù)的范圍,以及數(shù)據(jù)的組織方式。這種構(gòu)建方式,一般適用于行業(yè)知識圖譜的構(gòu)建,對于一個行業(yè)來說,數(shù)據(jù)內(nèi)容,數(shù)據(jù)組織方式相對來說比較容易確定。比如對于法律領(lǐng)域的知識圖譜,可能會以法律分類,法律條文,法律案例等等的方式組織。
- 自下向上:自下向上的構(gòu)建方式,是指先按照三元組的方式收集具體數(shù)據(jù),然后根據(jù)數(shù)據(jù)內(nèi)容來提煉數(shù)據(jù)模型。 采用這種方式構(gòu)建知識圖譜,是因為在開始構(gòu)建知識圖譜的時候,還不清楚收集數(shù)據(jù)的范圍,也不清楚數(shù)據(jù)怎么使用,就是先把所有的數(shù)據(jù)收集起來,形成一個龐大的數(shù)據(jù)集,然后再根據(jù)數(shù)據(jù)內(nèi)容,總結(jié)數(shù)據(jù)的特點,將數(shù)據(jù)進行整理、分析、歸納、總結(jié),形成一個框架,也就是數(shù)據(jù)模型。一般公共領(lǐng)域的知識圖譜采用這種方式
-
知識圖譜的數(shù)據(jù)存儲
-
原始數(shù)據(jù)類型:
結(jié)構(gòu)化數(shù)據(jù)(Structed Data):如關(guān)系數(shù)據(jù)庫
半結(jié)構(gòu)化數(shù)據(jù)(Semi-Structed Data):如XML、JSON、百科
非結(jié)構(gòu)化數(shù)據(jù)(UnStructed Data):如圖片、音頻、視頻、文本 -
存儲方式
-
RDF(Resource Description Framework)存儲
-
RDF本質(zhì)是一個數(shù)據(jù)模型(Data Model),它提供了一個統(tǒng)一的標(biāo)準(zhǔn),用于描述實體/資源。RDF形式上表示為SPO三元組。三元組被用來表示實體與實體間的關(guān)系,或者實體的某個屬性的值是什么。從內(nèi)容上其結(jié)構(gòu)為 “資源-屬性-屬性值” ,資源實體由URI表示,屬性值可以是另一個資源實體的URI,也可以是某種數(shù)據(jù)類型的值
-
RDF序列化的方式主要有:RDF/XML,N-Triples,Turtle,RDFa,JSON-LD等幾種
-
-
圖數(shù)據(jù)庫存儲
- 圖數(shù)據(jù)庫的結(jié)構(gòu)定義相比RDF數(shù)據(jù)庫更為通用,實現(xiàn)了圖結(jié)構(gòu)中的節(jié)點,邊以及屬性來進行圖數(shù)據(jù)的存儲,典型的開源圖數(shù)據(jù)庫就是Neo4j。
- 圖數(shù)據(jù)庫源于圖理論,它包含節(jié)點和關(guān)系,具有如下幾個特征:
- 節(jié)點(node):通常表示實體,例如人員、賬戶、事件等,節(jié)點可以有屬性和標(biāo)簽。
- 邊(edge):又被稱為關(guān)系(relationships),具有名字和方向,并有開始節(jié)點和一個結(jié)束節(jié)點,邊是圖數(shù)據(jù)庫中最顯著的一個特征,在RDBMS中沒有對應(yīng)實現(xiàn)。
- 屬性(properties):類似KV數(shù)據(jù)庫中的鍵值對,節(jié)點和邊都可以有屬性。
-
-
-
知識圖譜的構(gòu)建過程
- 知識抽?。褐R抽取即從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進行知識提取,形成知識(結(jié)構(gòu)化數(shù)據(jù))存入到知識圖譜
- 知識融合:多個來源的關(guān)于同一個實體或概念的描述信息融合起來
- 知識加工:通過信息抽取,從原始語料中提取出了實體、關(guān)系與屬性等知識要素,并且經(jīng)過知識融合,消除實體指稱項與實體對象之間的歧義,得到一系列基本的事實表達。
-
三、確定性推理
-
推理
-
推理方式及其分類
-
演繹推理:一般 → 個別(也就是我們常說的三段論的推理)
-
歸納推理:個別 → 一般
- 完全歸納推理(必然性推理)
- 不完全歸納推理(非必然性推理)
-
默認推理(default reasoning,缺省推理):知識不完全的情況下假設(shè)某些條件已經(jīng)具備所進行的推理
-
確定性推理、不確定性推理
- 確定性推理:推理時所用的知識與證據(jù)都是確定的,推出的結(jié)論也是確定的,其真值或者為真或者為假。
- 不確定性推理:推理時所用的知識與證據(jù)不都是確定的,推出的結(jié)論也是不確定的。
-
單調(diào)推理、非單調(diào)推理(按推出的結(jié)論是否越來越接近目標(biāo)來劃分)
- 單調(diào)推理:隨著推理向前推進及新知識的加入,推出的結(jié)論越來越接近最終目標(biāo)
- 非單調(diào)推理:由于新知識的加入,不僅沒有加強已推出的結(jié)論,反而要否定它,使推理退回到前面的某一步,重新開始。
-
啟發(fā)式推理、非啟發(fā)式推理(按推理過程中是否運用與問題有關(guān)的啟發(fā)性知識來劃分)
PS:啟發(fā)性知識:與問題有關(guān)且能加快推理過程、提高搜索效率的知識。
-
-
推理的方向
- 正向推理
- 反向推理
- 混合推理
- 雙向推理
-
沖突消解策略
- 已知事實與知識的三種匹配情況:
- 恰好匹配成功(一對一)
- 不能匹配成功
- 多種匹配成功(一對多、多對一、多對多)【這個時候需要進行沖突消解】
- 多種沖突消解策略:
- 按針對性排序
- 按已知事實的新鮮性排序
- 按匹配度排序
- 按條件個數(shù)排序
- 已知事實與知識的三種匹配情況:
-
-
自然演繹推理(就是離散中謂詞邏輯推理規(guī)則,這里不再贅述)
-
歸結(jié)演繹推理???
-
定理:Q 為 P1,P2,…,Pn的邏輯結(jié)論,當(dāng)且僅當(dāng)(P1∧P2∧…1∧Pn)∧﹃Q是不可滿足的。
-
謂詞公式化為子句集的方法
- 消去謂詞公式中的“→”和“ ?”符號
- 把否定符號"﹃"移到緊靠謂詞的位置上
- 變量標(biāo)準(zhǔn)化
- 消去存在量詞
- 化為前束形
- 化為標(biāo)準(zhǔn)形
- 略去全稱量詞
- 消去合取詞,把母式用子句集表示
- 子句變量標(biāo)準(zhǔn)化
例子:
-
魯賓遜歸結(jié)原理(消解原理)的基本思想:
檢查子句集 S 中是否包含空子句,若包含,則 S 不可滿足;若不包含,在 S 中選擇合適的子句進行歸結(jié),一旦歸結(jié)出空子句,就說明 S 是不可滿足的
-
歸結(jié):設(shè)C1與C2是子句集中的任意兩個子句,如果 C1中的文字L1與 C2中的文字L2互補,那么從C1和 C2中分別消去L1和L2,并將二個子句中余下的部分析取,構(gòu)成一個新子句C12 。
-
置換:置換可簡單的理解為是在一個謂詞公式中用置換項去替換變量。例如, {a/x, c/y, f(b)/z} 是一個置換。
-
合一:合一可理解為是尋找項對變量的置換,使兩個謂詞公式一致??啥x為:設(shè)有公式集F={F1, F2,…,Fn},若存在一個置換θ,可使F1θ=F2θ=…=Fnθ,則稱θ是F的一個合一。稱F1,F2,…,Fn是可合一的。一般來說,一個公式集的合一不是唯一的。
-
最一般合一:設(shè)σ是公式集F的一個合一,如果對F的任一個合一θ都存在一個置換λ,使得θ=σ°λ,則稱σ是一個最一般合一(MGU)。一個公式集的最一般合一是唯一的。
例題:
-
-
歸結(jié)反演
-
步驟:
- 將已知前提表示為謂詞公式F
- 將待證明的結(jié)論表示為謂詞公式Q,并否定得到﹁ Q
- 把謂詞公式集{F,﹁Q} 化為子句集
- 應(yīng)用歸結(jié)原理對子句集S中的子句進行歸結(jié),并把每次 歸結(jié)得到的歸結(jié)式都并入到S中。如此反復(fù)進行,若出 現(xiàn)了空子句,則停止歸結(jié),此時就證明了Q為真
例題:
-
-
應(yīng)用歸結(jié)原理求解問題
-
步驟:
- 已知前提 F 用謂詞公式表示,并化為子句集 S
- 把待求解的問題 Q 用謂詞公式表示,并否定 Q,再與 ANSWER 構(gòu)成析取式(﹁ Q ∨ ANSWER )
- 把(﹁ Q∨ ANSWER) 化為子句集,并入到子句集 S中,得到子句集 S’
- 對 S’應(yīng)用歸結(jié)原理進行歸結(jié)
- 若得到歸結(jié)式 ANSWER ,則答案就在 ANSWER 中
例題:
-
-
證據(jù)理論
-
信任函數(shù)
-
似然函數(shù)
-
概率分配函數(shù)的正交和(證據(jù)的組合)
-
-
-
-
信任函數(shù) Bel(A)和似然函數(shù)Pl(A)分別來表示命題A的信任度的下限和上限。同樣,也可用它來表述知識強度的下限和上限。這樣,就可在此表示的基礎(chǔ)上建立相應(yīng)的不確定性推理模型。
-
基于證據(jù)理論的不確定性推理的步驟:
- 建立問題的樣本空間D
- 由經(jīng)驗給出,或者由隨機性規(guī)則和事實的信任度計算基本概率分配函數(shù)
- 計算所關(guān)心的子集的信任函數(shù)值、似然函數(shù)值。
- 由信任函數(shù)值、似然函數(shù)值得出結(jié)論
例題:
-
-
-
四、不確定性推理方法
-
出現(xiàn)不確定性的原因和特征:證據(jù)的不確定性;規(guī)則的不確定性;方法的不確定性
-
不確定性推理:從不確定性的初始證據(jù)出發(fā),通過運用不確定性的知識,最終推出具有一定程度的不確定性但卻是合理或者近乎合理的結(jié)論的思維過程。
-
可信度方法???
-
它是不確定性推理中非常簡單且又十分有效的一種推理方法,優(yōu)點:直觀、簡單,且效果好
- 可信度:根據(jù)經(jīng)驗對一個事物或現(xiàn)象為真的相信程度
- C-F模型:基于可信度表示的不確定性推理的基本方法。其它可信度方法都是在此基礎(chǔ)上發(fā)展起來的
-
知識不確定性的表示
- CF(H,E)的取值范圍: [-1,1]。
若由于相應(yīng)證據(jù)的出現(xiàn)增加結(jié)論 H 為真的可信度,則 CF(H,E)> 0,證據(jù)的出現(xiàn)越是支持 H 為真,就使CF(H,E) 的值越大。
反之,CF(H,E)< 0,證據(jù)的出現(xiàn)越是支持 H 為假,CF(H,E)的值就越小。
若證據(jù)的出現(xiàn)與否與 H 無關(guān),則 CF(H,E)= 0
- CF(H,E)的取值范圍: [-1,1]。
-
證據(jù)不確定性的表示
- 證據(jù)E的可信度取值范圍:[-1,1] 。
對于初始證據(jù),若所有觀察S能肯定它為真,則CF(E)= 1。
若肯定它為假,則 CF(E) = –1。
若以某種程度為真,則 0 < CF(E) < 1。
若以某種程度為假,則 -1 < CF(E) < 0 。
若未獲得任何相關(guān)的觀察,則 CF(E) = 0
- 證據(jù)E的可信度取值范圍:[-1,1] 。
-
組合證據(jù)不確定性的算法
-
多個單一證據(jù)的合取
? E = E1 AND E2 AND … AND En
則CF(E) = min{CF(E1), CF(E2), … , CF(En)}
-
多個單一證據(jù)的析取
? E = E1 OR E2 OR … OR En
則CF(E) = max{CF(E1), CF(E2), … , CF(En)}
-
-
不確定性的傳遞算法
-
結(jié)論不確定性的合成算法
-
-
例題:
-
-
五、搜索求解策略
-
狀態(tài)空間表示法
- 用狀態(tài)空間方法表示問題,首先必須定義狀態(tài)的描述形式,把問題的一切狀態(tài)都表示出來。其次要定義一組操作
-
盲目的圖搜索策略
-
符號說明:
- s-初始狀態(tài)節(jié)點;G-搜索圖
- OPEN表:存放剛生成的節(jié)點。對于不同的搜索策略,節(jié)點在OPEN表中的排列順序是不同的
- CLOSE表:存放已被擴展的節(jié)點
- MOVE-FIRST操作:取OPEN表首的節(jié)點作為當(dāng)前要被擴展的節(jié)點n,同時將節(jié)點n移至CLOSE表
-
搜索的一般過程:
- 初始化
- 建立只包含初始狀態(tài)節(jié)點s的搜索圖G:={s}
- OPEN:={s}
- CLOSE:={}
- 搜索循環(huán)
- MOVE-FIRST(OPEN)-取出OPEN表首的節(jié)點n作為擴展的節(jié)點,同時將其移到close表
- 擴展出n的子節(jié)點,插入搜索圖G和OPEN表
- 適當(dāng)?shù)臉?biāo)記和修改指針
- 排序OPEN表
- 通過循環(huán)地執(zhí)行該算法,搜索圖G會因不斷有新節(jié)點加入而逐步長大,直到搜索到目標(biāo)節(jié)點。
- 初始化
-
寬度優(yōu)先
-
OPEN表中節(jié)點簡單的排序方式:
寬度優(yōu)先——擴展當(dāng)前節(jié)點后生成的子節(jié)點總是置于OPEN表的后端,即OPEN表作為隊列,先進先出,使搜索優(yōu)先向橫向方向發(fā)展。
-
-
深度優(yōu)先
- OPEN表中節(jié)點簡單的排序方式:
深度優(yōu)先——擴展當(dāng)前節(jié)點后生成的子節(jié)點總是置于OPEN表的前端,即OPEN表作為棧,后進先出,使搜索優(yōu)先向縱深方向發(fā)展。
- OPEN表中節(jié)點簡單的排序方式:
盲目的搜索在白白搜索了大量無關(guān)的狀態(tài)節(jié)點后才碰到解答,效率低;
提高一般圖搜索效率的關(guān)鍵:優(yōu)化OPEN表中節(jié)點的排序方式
-
-
啟發(fā)式的圖搜索策略
-
全局排序——對OPEN表中的所有節(jié)點排序,使最有希望的節(jié)點排在表首
A算法, A*算法
-
局部排序——僅對新擴展出來的子節(jié)點排序,使這些新節(jié)點中最有希望者能優(yōu)先取出考察和擴展(只需要了解)
-
-
A算法
-
-
A*算法
-
-
帶*的是理想中的狀態(tài),正常情況下還是使用f(n),g(n),h(n)來進行判斷
-
-
-
啟發(fā)式函數(shù)的強弱及其影響
-
-
六、機器學(xué)習(xí)
-
基本的機器學(xué)習(xí)術(shù)語
- 數(shù)據(jù)集(Dataset):數(shù)據(jù)是進行機器學(xué)習(xí)的基礎(chǔ),所有數(shù)據(jù)的集合稱為數(shù)據(jù)集
- 樣本(Sample):數(shù)據(jù)集中每條記錄是關(guān)于一個事件或?qū)ο蟮拿枋?,稱為樣本
- 屬性(Attribute)或特征(Feature):每個樣本在某方面的表現(xiàn)或性質(zhì)
- 特征向量(Feature Vector):每個樣本的特征對應(yīng)的特征空間中的一個坐標(biāo)向量
- 學(xué)習(xí)(Learning)或者訓(xùn)練(Training):從數(shù)據(jù)中學(xué)得模型的過程,這個過程通過執(zhí)行某個學(xué)習(xí)算法來完成
- 訓(xùn)練數(shù)據(jù)(Training Data):訓(xùn)練過程中使用的數(shù)據(jù)
- 訓(xùn)練樣本(Training Sample):訓(xùn)練數(shù)據(jù)的每個樣本
- 訓(xùn)練集:訓(xùn)練樣本組成的集合
- 標(biāo)記(Label):訓(xùn)練數(shù)據(jù)中可能會指出訓(xùn)練結(jié)果的信息
-
機器學(xué)習(xí)算法
- 監(jiān)督學(xué)習(xí):在建立預(yù)測模型的過程中將預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)的實際結(jié)果進行比較,不斷的調(diào)整預(yù)測模型,直到模型的預(yù)測結(jié)果達到一個預(yù)期的準(zhǔn)確率
- 無監(jiān)督式學(xué)習(xí):數(shù)據(jù)并不被特別標(biāo)識,計算機自行學(xué)習(xí)分析數(shù)據(jù)內(nèi)部的規(guī)律、特征等,進而得出一定的結(jié)果(如內(nèi)部結(jié)構(gòu)、主要成分等)
- 半監(jiān)督學(xué)習(xí):半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之間,輸入數(shù)據(jù)部分被標(biāo)識,部分沒有被標(biāo)識,沒標(biāo)識數(shù)據(jù)的數(shù)量常常遠遠大于有標(biāo)識數(shù)據(jù)數(shù)量。這種學(xué)習(xí)模型可以用來進行預(yù)測,但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來進行預(yù)測
- 強化學(xué)習(xí):根據(jù)反饋信息來調(diào)整機器行為以實現(xiàn)自動決策的一種機器學(xué)習(xí)方式
-
機器學(xué)習(xí)工作流程
-
數(shù)據(jù)采集:爬蟲,API,數(shù)據(jù)庫
-
數(shù)據(jù)處理:數(shù)據(jù)清洗;數(shù)據(jù)預(yù)處理;數(shù)據(jù)歸一化
-
特征工程:一般認為括特征構(gòu)建、特征提取、特征選擇三個部分
-
構(gòu)建模型
-
模型評估
-
混淆矩陣
-
模型評估指標(biāo)
-
準(zhǔn)確率
-
精確率
召回率
-
F1-Score(F1得分)
-
-
模型評估方法
- 留出法(Holdout檢驗):它將原始的樣本隨機劃分為訓(xùn)練集S和驗證集T兩部分。在S上訓(xùn)練出模型后,用T來評估其測試誤差,作為對泛化誤差的估計。
- 交叉驗證:首先將全部樣本劃分成K個大小相等的樣本子集,每個子集都盡可能保持?jǐn)?shù)據(jù)分布的一致性,即從D中通過分層采樣得到,然后每次用K-1個子集的并集作為訓(xùn)練集,余下的那個子集作為測試集,這樣就可以獲得K組訓(xùn)練集/測試集,從而可進行K次訓(xùn)練和測試,最終返回的是K個測試結(jié)果的均值。顯然,交叉驗證法評估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于K的取值,為強調(diào)這一點,通常把交叉驗證稱為“K折交叉驗證”,K的最常取值為10,稱為10折交叉驗證,其它常取的K值有5,20等
- 留一法:留一法是交叉驗證法的一個特例,是將數(shù)據(jù)集D中包含的m個樣本分為m份,留一法不受隨機樣本劃分方式的影響,因為m個樣本劃分為m份只有一種劃分方法,留一法使用的訓(xùn)練集與初始數(shù)據(jù)集相比只少了一個樣本,這使得在絕大多數(shù)情況下,留一法中被實際評估的模型與期望評估的用D訓(xùn)練出的模型很相似,因此留一法的評估結(jié)果往往被認為比較準(zhǔn)確。然而,留一法也有其缺點:在數(shù)據(jù)集大時,訓(xùn)練m個模型的計算開銷可能是難以忍受的,另外,留一法的評估結(jié)果也未必永遠比其他評估方法準(zhǔn)確。
- 自助法:不管是留出法還是交叉驗證,都是基于劃分訓(xùn)練集和測試集的方法進行模型評估的,然而,當(dāng)樣本規(guī)模較小時,將樣本集進行劃分會讓訓(xùn)練集進一步減少,這可能會影響模型訓(xùn)練效果,自助法是可以維持訓(xùn)練集樣本規(guī)模的驗證方法
-
優(yōu)化過擬合與欠擬合文章來源:http://www.zghlxwxcb.cn/news/detail-774159.html
- 降低欠擬合風(fēng)險方法
- 增加新的特征,當(dāng)特征不足或現(xiàn)有特征與樣本標(biāo)簽的相關(guān)性不強時,模型容易出現(xiàn)不擬合。
- 增加模型復(fù)雜度,簡單模型的學(xué)習(xí)能力較差,通過增加模型的復(fù)雜度可以使模型擁有更強的擬合能力。
- 減少正則化系數(shù)。正則化是用來防止過擬合的,但當(dāng)模型出現(xiàn)欠擬合現(xiàn)象時,則需要針對性地減少正則化系數(shù)
- 降低過擬合風(fēng)險方法
- 從數(shù)據(jù)入手,獲得更多的訓(xùn)練數(shù)據(jù)。使用更多的訓(xùn)練數(shù)據(jù)是解決過擬合問題最有效的手段,因為更多的樣本能夠讓模型學(xué)習(xí)到更多更有效的特征,減少噪音的影響,當(dāng)然,直接增加實驗數(shù)據(jù)一般是很困難的,但是可以通過一定的規(guī)則來擴充訓(xùn)練數(shù)據(jù)。
- 降低模型復(fù)雜度。在數(shù)據(jù)較少時,模型過于復(fù)雜是產(chǎn)生過擬合的主要因素
- 正則化方法
- 集成學(xué)習(xí)方法。集成學(xué)習(xí)是把多個模型集成在一起,來降低單一模型的過擬合風(fēng)險
- 降低欠擬合風(fēng)險方法
-
調(diào)參和最終模型文章來源地址http://www.zghlxwxcb.cn/news/detail-774159.html
-
-
到了這里,關(guān)于人工智能期末復(fù)習(xí)——速通知識點的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!