orange3 是一個非常適合初學者的data mining library. 它讓使用者通過拖拽內置的組件來形成工作流。讓你不需要寫任何代碼就可以體驗到數據挖掘和可視化的魅力。
它的桌面如下,這里我創(chuàng)建了 3 個節(jié)點,分別是數據集、小提琴圖,散點圖
其中 Datasets 是從 左邊的 Data 組件庫中拖拽過來的,Datasets 是 orange3 內置的數據集,比如非常常用的iris(鳶尾花) 數據集。雙擊桌面上的 Datasets 就能選擇不同的數據集來作為下一步的數據來源。
點擊左下角的預覽按鈕,可以像 excel 一樣預覽這個數據集
可視化
先看一下散點圖, x 軸選擇了 sepal(花萼長度), y軸是 花的類別,可以看出,相關性并不是很強,有很大一段x 軸的區(qū)域,三種類別都有可能。
我們換一個 x 軸,選擇 petal length (花瓣長度),發(fā)現相關性很大,基本上很容易區(qū)分開文章來源:http://www.zghlxwxcb.cn/news/detail-744022.html
小提琴圖
小提琴圖主要表現的是某個特征的分布情況。下圖表現了三種花的 petal length 分布,可以看出藍色的 Iris-setosa 分布的比較集中,而且與其他的類別沒有重疊。
這意味著,當你看看到一株 petal length(花瓣長度) 小于2.5的時候,幾乎可以斷定它屬于setosa屬
有趣的是,至于花萼(sepal)的寬度,setosa屬比起其它屬看起來卻趨向于長尾分布(小提琴更窄),說明它的分布范圍隨機性更大。
再看一個熱力圖
可以看出三種花(x軸的三個顏色) 中,y 軸是四個屬性, Iris-setosa 的petal length 這個屬性明顯和其它兩種有區(qū)別,可以作為一個直觀的區(qū)分屬性。文章來源地址http://www.zghlxwxcb.cn/news/detail-744022.html
到了這里,關于python 數據挖掘庫orange3 介紹的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!