国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法

這篇具有很好參考價值的文章主要介紹了python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

導語

關聯(lián)規(guī)則
是反映一個事物與其他事物之間的相互依存性和關聯(lián)性

常用于實體商店或在線電商的推薦系統(tǒng):通過對顧客的購買記錄數(shù)據(jù)庫進行關聯(lián)規(guī)則挖掘,最終目的是發(fā)現(xiàn)顧客群體的購買習慣的內在共性,例如購買產(chǎn)品A的同時也連帶購買產(chǎn)品B的概率,根據(jù)挖掘結果,調整貨架的布局陳列、設計促銷組合方案,實現(xiàn)銷量的提升,最經(jīng)典的應用案例莫過于<啤酒和尿布>。關聯(lián)規(guī)則分析中的關鍵概念包括:支持度(Support)、置信度(Confidence)與提升度(Lift)。

支持度(support)
支持度 (Support)支持度是兩件商品 ( X ? Y ) (X \bigcap Y) (X?Y)在總銷售筆數(shù)(N)中出現(xiàn)的概率,即A與B同時被購買的概率
S u p p o r t ( X ? Y ) = F r e q ( X ? Y ) N Support(X \bigcap Y)=\frac{Freq(X \bigcap Y)}{N} Support(X?Y)=NFreq(X?Y)?

舉例說明
比如某超市2016年有100w筆銷售,顧客購買可樂又購買薯片有20w筆,顧客購買可樂又購買面包有10w筆

  • 可樂和薯片的關聯(lián)規(guī)則的支持度是:20%
  • 可樂和面包的支持度是10%

置信度(confidence)
置信度是購買X后再購買Y的條件概率。簡單來說就是交集部分Y在X中比例,如果比例大說明購買X的客戶很大期望會購買Y商品
C o n f i d e n c e = F r e q ( X ? Y ) F r e q ( X ) Confidence=\frac{Freq(X \bigcap Y)}{Freq (X)} Confidence=Freq(X)Freq(X?Y)?

舉例說明
某超市2016年可樂購買次數(shù)40w筆,購買可樂又購買了薯片是30w筆,顧客購買可樂又購買面包有10w筆

  • 購買可樂又會購買薯片的置信度是75%
  • 購買可樂又購買面包的置信度是25%

提升度(lift)
提升度表示先購買X對購買Y的概率的提升作用,用來判斷規(guī)則是否有實際價值,即使用規(guī)則后商品在購物車中出現(xiàn)的次數(shù)是否高于商品單獨出現(xiàn)在購物車中的頻率
L i f t = S u p p o r t ( X ? Y ) S u p p o r t ( X ) ? S u p p o r t ( Y ) Lift=\frac{Support(X \bigcap Y)}{Support(X)*Support(Y)} Lift=Support(X)?Support(Y)Support(X?Y)?

舉例說明
可樂和薯片的關聯(lián)規(guī)則的支持度是20%,購買可樂的支持度是3%,購買薯片的支持度是5%

  • 提升度是1.33

{X→Y}的提升度大于1,這表示如果顧客購買了商品X,那么可能也會購買商品Y;而提升度小于1則表示如果顧客購買了商品X,那么不太可能再購買商品Y

有這三個指標,如何選擇商品的組合,是需要對支持度,置信度,提升度綜合指標來看待商品組合。沒有固定的數(shù)值衡量

mlxtend實現(xiàn)Apriori算法

數(shù)據(jù)集選擇:Grocery Store Data Set

數(shù)據(jù)集為10000多個購買商品的訂單。該數(shù)據(jù)集包含11商品:果醬、麥琪、糖、咖啡、奶酪、茶、波恩維塔、玉米片、面包、餅干和牛奶。

import pandas as pd
data=pd.read_csv('GroceryStoreDataSet.csv',names=['products'],header=None)
data.head(10)

python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法

data=list(data['products'].apply(lambda x:x.split(',')))
data

python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法
轉換數(shù)據(jù)類型TransactionEncoder類似于獨熱編碼,每個值轉換為一個唯一的bool值)

from mlxtend.preprocessing import TransactionEncoder

d=TransactionEncoder()
d_data=d.fit(data).transform(data)
df=pd.DataFrame(d_data,columns=d.columns_)
df

TransactionEncoder類似于獨熱編碼,每個值轉換為一個唯一的bool值)
python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法
求支持度

from mlxtend.frequent_patterns import apriori
df1=apriori(df,min_support=0.01,use_colnames=True)
df1.sort_values(by='support',ascending=False)

python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法
求置信度與提升度
association_rules方法判斷置信度,這里提取confidence大于0.9的

from mlxtend.frequent_patterns import association_rules
 
association_rule = association_rules(df1,metric='confidence',min_threshold=0.9)

python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法

列中的columns參數(shù)含義如下:

  • antecedents:商品X組合
  • consequents:商品Y組合
    購買關聯(lián)的關系是{X -> Y}
  • antecedent support:商品X組合支持度
  • consequent support:商品Y組合支持度
  • support:{X -> Y}支持度
  • confidence:{X -> Y}置信度
  • lift:{X -> Y}提升度
  • leverage:規(guī)則杠桿率,表示當商品X組合與商品Y組合獨立分布時,商品X組合與商品Y組合一起出現(xiàn)的次數(shù)比預期多多少。
  • conviction:{X -> Y}確信度,與提升度類似,但用差值表示。

確信度值越大,則商品X組合與商品Y組合的關聯(lián)性越強。 以上三個值都是越大關聯(lián)強度也就越大,inf表示無窮大。

注意是商品組合

單個商品與單個商品之間的關系
篩選商品組合,選出只有一個商品的antecedents,和consequents。

association_rule['X_length']=association_rule['antecedents'].apply(lambda x:len(x))
association_rule['Y_length']=association_rule['consequents'].apply(lambda x:len(x))

association_rule=association_rule[(association_rule['X_length']==1) & (association_rule['Y_length']==1) ]

python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法

也可以單獨對antecedents的商品組合,分析,觀察antecedent support值,找出關聯(lián)性最大的情況文章來源地址http://www.zghlxwxcb.cn/news/detail-470149.html

到了這里,關于python數(shù)據(jù)分析 - 關聯(lián)規(guī)則Apriori算法的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 數(shù)據(jù)挖掘——關聯(lián)規(guī)則(Association Rule)Apriori算法和python代碼實現(xiàn)

    數(shù)據(jù)挖掘——關聯(lián)規(guī)則(Association Rule)Apriori算法和python代碼實現(xiàn)

    關聯(lián)規(guī)則(Association Rules)是反映一個事物與其他事物之間的相互依存性和關聯(lián)性,是數(shù)據(jù)挖掘的一個重要技術,用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項之間的相關關系。 用一些例子來說明一下: 當我們在超市進行購物時,超市中有琳瑯滿目的商品,在每一次購物結束之后,

    2024年02月04日
    瀏覽(92)
  • 機器學習:基于Apriori算法對中醫(yī)病癥辯證關聯(lián)規(guī)則分析

    機器學習:基于Apriori算法對中醫(yī)病癥辯證關聯(lián)規(guī)則分析

    作者:i阿極 作者簡介:Python領域新星作者、多項比賽獲獎者:博主個人首頁 ??????如果覺得文章不錯或能幫助到你學習,可以點贊??收藏??評論??+關注哦!?????? ??????如果有小伙伴需要數(shù)據(jù)集和學習交流,文章下方有交流學習區(qū)!一起學習進步!?? 大家好,我

    2024年02月06日
    瀏覽(96)
  • 利用python實現(xiàn)Apriori關聯(lián)規(guī)則算法

    利用python實現(xiàn)Apriori關聯(lián)規(guī)則算法

    ????????大家可能聽說過用于宣傳數(shù)據(jù)挖掘的一個案例:啤酒和尿布;據(jù)說是沃爾瑪超市在分析顧客的購買記錄時,發(fā)現(xiàn)許多客戶購買啤酒的同時也會購買嬰兒尿布,于是超市調整了啤酒和尿布的貨架擺放,讓這兩個品類擺放在一起;結果這兩個品類的銷量都有明顯的增長

    2024年02月02日
    瀏覽(88)
  • 關聯(lián)規(guī)則挖掘(上):數(shù)據(jù)分析 | 數(shù)據(jù)挖掘 | 十大算法之一

    ??????????歡迎來到我的博客?????????? ??作者: 秋無之地 ??簡介:CSDN爬蟲、后端、大數(shù)據(jù)領域創(chuàng)作者。目前從事python爬蟲、后端和大數(shù)據(jù)等相關工作,主要擅長領域有:爬蟲、后端、大數(shù)據(jù)開發(fā)、數(shù)據(jù)分析等。 ??歡迎小伙伴們 點贊????、收藏

    2024年02月07日
    瀏覽(32)
  • 數(shù)據(jù)挖掘-關聯(lián)規(guī)則學習-Apriori算法原理

    比如你女朋友,低頭玩手指+沉默,那大概率生氣了,那這就是你總結出來的規(guī)則。啤酒與尿布的例子相信很多人都聽說過吧,故事是這樣的:在一家超市中,人們發(fā)現(xiàn)了一個特別有趣的現(xiàn)象,尿布與啤酒這兩種風馬牛不相及的商品居然擺在一起,但這一奇怪的舉措居然使尿布

    2024年02月11日
    瀏覽(102)
  • 大數(shù)據(jù)關聯(lián)規(guī)則挖掘:Apriori算法的深度探討

    大數(shù)據(jù)關聯(lián)規(guī)則挖掘:Apriori算法的深度探討

    在本文中,我們深入探討了Apriori算法的理論基礎、核心概念及其在實際問題中的應用。文章不僅全面解析了算法的工作機制,還通過Python代碼段展示了具體的實戰(zhàn)應用。此外,我們還針對算法在大數(shù)據(jù)環(huán)境下的性能局限提出了優(yōu)化方案和擴展方法,最終以獨到的技術洞見進行

    2024年01月24日
    瀏覽(1667)
  • 關聯(lián)規(guī)則算法(Apriori算法、FP-Growth算法)小案例(python mlxtend)

    關聯(lián)規(guī)則算法(Apriori算法、FP-Growth算法)小案例(python mlxtend)

    目錄 一、Apriori ?二、FP-Growth 算法理論部分參考: (28條消息) Apriori算法與FP-Tree算法_messi_james的博客-CSDN博客 參考: (28條消息) 【機器學習】關聯(lián)規(guī)則及python實現(xiàn)_mlxtend.frequent_patterns_為什么昵稱不能重復的博客-CSDN博客

    2024年02月13日
    瀏覽(96)
  • 大數(shù)據(jù)的常用算法(分類、回歸分析、聚類、關聯(lián)規(guī)則、神經(jīng)網(wǎng)絡方法、web數(shù)據(jù)挖掘)

    在大數(shù)據(jù)時代,數(shù)據(jù)挖掘是最關鍵的工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中有價值的、潛在有用的信息和知識的過程,也是一種決策支持過程。其主要基于人工智能,機器學習,模式學習,統(tǒng)計學等。通過對大數(shù)據(jù)

    2024年02月09日
    瀏覽(23)
  • 利用weka進行數(shù)據(jù)挖掘——基于Apriori算法的關聯(lián)規(guī)則挖掘實例

    利用weka進行數(shù)據(jù)挖掘——基于Apriori算法的關聯(lián)規(guī)則挖掘實例

    首先,如果不熟悉weka的使用的話,可以從我的git倉庫里面拉取一下weka的相關教程,倉庫里面還有包含此次實例的所有資源 我們可以在weka的官網(wǎng)上下載weka軟件:weka官網(wǎng) 如果下載速度慢的話也可以直接從我的git倉庫里面拉取這個軟件,軟件是win64位的weka-3-8-6 然后找到對應版

    2024年02月06日
    瀏覽(97)
  • 關聯(lián)規(guī)則挖掘算法--Apriori算法

    關聯(lián)規(guī)則挖掘算法--Apriori算法

    關聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中最活躍的研究方法之一,目的是在一個數(shù)據(jù)集中找到各項之間的關聯(lián)關系,而這種關系并沒有在數(shù)據(jù)中直接體現(xiàn)出來。Apriori算法 關聯(lián)規(guī)則 學習的經(jīng)典算法之一,是R.Agrawal和R.Srikartt于1944年提出的一種具有影響力的挖掘布爾關聯(lián)規(guī)則挖掘頻繁項集的

    2024年02月04日
    瀏覽(95)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包