基本概念和方法
關聯(lián)規(guī)則和算法應用
基本概念和術語
關聯(lián)規(guī)則算法應用:
一個關聯(lián)規(guī)則分析的例子—————超市購物籃分析
?
?不要看
后面數(shù)字看不懂
?
?
?項集:是指項的集合。包含k個項的項集稱為k-項集
支持度:若A是一個項集,則A的支持度表示在所有事務T中同時出現(xiàn)A項集的概率
置信度:A出現(xiàn)的次數(shù)除以A和B同時出現(xiàn)的次數(shù)。
?頻繁項集:支持度滿足最小支持度閾值的項集稱為頻繁項集。通常k-項集如果滿足最小支持度閾值,稱為頻繁集,記作Lk。
關聯(lián)規(guī)則(Association Rule):可以表示為一個蘊含式。
如:X=>Y,X和Y分別稱為關聯(lián)規(guī)則的前件和后件。
關聯(lián)規(guī)則是否可用,需要考察他的支持度和置信度(可信度)兩個指標。
?可以通過以下實例來理解:
?置信度等于兩者出現(xiàn)的支持度和前者出現(xiàn)的支持度之比。
??
?
?
?經典的Apriori關聯(lián)規(guī)則算法
?Apriori關聯(lián)規(guī)則算法基本思想
Apriori的基本思想:頻繁項集的任何非空子集也一定是頻繁的。
核心思想:掃描數(shù)據(jù)獲得所有的頻繁1項集L1,利用L1查找頻繁2項集,如此循環(huán)直到不再有新的頻繁集被找到為止。而獲取不同長度的頻繁項集之前,都需要先查找到候選集(支持度滿足最小支持度閾值的項集)。
?如何生成候選集呢?
?先自連接再進行修剪。
這個例子非常重要,比較容易理解。
支持度(sup)就是數(shù)出在數(shù)據(jù)集D中itemset出現(xiàn)的次數(shù)
{1,2,3}.{1,2,3,5},{1,3,5},{2,3,5}再進行修剪,他們的子集都必須在L2里面。
去除{1,2,3},{1,2,3,5},{1,3,5}
得到C3{2,3,5}
Apriori算法的缺點:
多次掃描數(shù)據(jù)庫,產生巨大數(shù)量的候選集,繁瑣的支持度計算。
下面我們來講解FP-Growth算法
FP-Growth算法不產生候選項集,而是采用分而治之的策略。
(1)構建FP樹:壓縮數(shù)據(jù)庫,并將頻繁項放入頻繁模式樹(FP樹),他仍然保留項集的關聯(lián)信息。
(2)從FP樹中挖掘頻繁項集:
1.從FP中獲得條件模式基
2.利用條件模式基,構建一個條件FP樹
3.根據(jù)條件FP樹,進行排列組合,挖掘出頻繁項。
以下示例較為簡單:重點理解
?設定最小支持度為2,得到頻繁集,并按照大小重新排列。
?第二次掃描排序后的數(shù)據(jù)庫。并且構建FP樹。
開始從FP樹中進行挖掘——頻繁項集
?那什么是條件模式基呢?
文章來源:http://www.zghlxwxcb.cn/news/detail-431691.html
?為什么每個條件模式基的計數(shù)為1呢?
由于i5的計數(shù)為1,最終到達i5的重復次數(shù)也只能為1,所以條件模式基的計數(shù)是根據(jù)路徑中的結點的最小計數(shù)來決定的。文章來源地址http://www.zghlxwxcb.cn/news/detail-431691.html
到了這里,關于第四章 數(shù)據(jù)關聯(lián)分析方法的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!