本篇介紹一個(gè)適合初學(xué)者入門的機(jī)器學(xué)習(xí)工具。
Orange 簡(jiǎn)介
Orange 是一個(gè)開源的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件。Orange 基于 Python 和 C/C++ 開發(fā),提供了一系列的數(shù)據(jù)探索、可視化、預(yù)處理以及建模組件。
Orange 擁有漂亮直觀的交互式用戶界面,非常適合新手進(jìn)行探索性數(shù)據(jù)分析和可視化展示;同時(shí)高級(jí)用戶也可以將其作為 Python 的一個(gè)編程模塊進(jìn)行數(shù)據(jù)操作和組件開發(fā)。
Orange 由盧布爾雅那大學(xué)于 1996 年開發(fā),從 3.0 版本開始使用 Python 代碼庫進(jìn)行科學(xué)計(jì)算,例如 numpy、scipy 以及 scikit-learn;前端的圖形用戶界面使用跨平臺(tái)的 Qt 框架。Orange 支持 Windows、macOS 以及 Linux 平臺(tái)。
Orange 安裝
首先,打開 Orange 官方下載頁面Orange Data Mining - Download
下載頁面提供了幾種安裝方式:
Miniconda,直接點(diǎn)擊“Download”按鈕,下載 Orange3-Miniconda-x86_64.exe 文件后雙擊運(yùn)行。
Anaconda,如果系統(tǒng)已經(jīng) Anaconda 發(fā)行版,執(zhí)行以下兩個(gè)命令:
conda config --add channels conda-forge
conda install orange3
Python Package Index,執(zhí)行以下命令:
pip install orange3
安裝完成后,在命令行輸入以下命令可以啟動(dòng) Orange 圖形界面:
orange-canvas
# 或者
python -m Orange.canvas
啟動(dòng)之后顯示以下歡迎界面。
歡迎界面提供了新建、打開工作流(workflow)的快捷方式以及各種教程、示例和使用文檔,關(guān)閉該界面就進(jìn)入了 Orange 主界面。
示例教程
打開 Orange 主界面,左側(cè)顯示了默認(rèn)安裝時(shí)提供的許多機(jī)器學(xué)習(xí)、預(yù)處理以及可視化的算法,這些功能被劃分為 5 個(gè)組件集(數(shù)據(jù)、可視化、模型、評(píng)估以及無監(jiān)督算法)。
其中的組件包括:
- 數(shù)據(jù)(Data):包含數(shù)據(jù)輸入、數(shù)據(jù)保存、數(shù)據(jù)過濾、抽樣、插補(bǔ)、特征操作以及特征選擇等組件,同時(shí)還支持嵌入 Python 腳本。
- 可視化(Visualize):包含通用可視化(箱形圖、直方圖、散點(diǎn)圖)和多變量可視化(馬賽克圖、篩分曲線圖)組件。
- 模型(Model):包含一組用于分類和回歸的有監(jiān)督機(jī)器學(xué)習(xí)算法組件。
- 評(píng)估(Evaluate):交叉驗(yàn)證、抽樣程序、可靠性評(píng)估以及預(yù)測(cè)方法評(píng)估。
- 無監(jiān)督算法(Unsupervised):用于聚類(k-means、層次聚類)和數(shù)據(jù)降維(多維尺度變換、主成分分析、相關(guān)分析)的無監(jiān)督學(xué)習(xí)算法。
另外,還可以通過插件(add-ons)的方式為 Orange 增加其他的功能(生物信息學(xué)、數(shù)據(jù)融合與文本挖掘。添加的方法是點(diǎn)擊“Options”菜單下的“Add-ons”按鈕,打開插件管理器。
然后勾選所需的插件,點(diǎn)擊“OK”按鈕進(jìn)行安裝;安裝插件后有可能需要重啟 Orange 才能在左側(cè)出現(xiàn)。
Orange 主界面的右側(cè)是一個(gè)工作區(qū)(canvas),用于放置各種組件并構(gòu)成一個(gè)數(shù)據(jù)分析的工作流。我們可以組合左側(cè)的組件實(shí)現(xiàn)讀取數(shù)據(jù)、顯示數(shù)據(jù)表、選擇特征、訓(xùn)練預(yù)測(cè)器、比較學(xué)習(xí)算法以及交互式可視化等功能。為了方便初學(xué)者,Orange 提供了許多實(shí)用的工作流示例。
點(diǎn)擊“Help”菜單下的“Example Workflows”按鈕,打開工作流示例界面。
我們選擇“Classification Tree”,這是一個(gè)用于分類的決策樹示例。
我們可以通過示例中的說明了解每個(gè)組件的作用和工作流程,其中的組件包括:
- 打開數(shù)據(jù)文件的 File 組件,用于打開包含鳶尾花(Iris)數(shù)據(jù)集的文件,這是一個(gè)經(jīng)典的數(shù)據(jù)挖掘數(shù)據(jù)集;
- 用于分類的決策樹組件(Classification Tree),這是一個(gè)決策樹算法;
- 分類樹可視化組件(Tree Viewer),用于顯示分類樹的結(jié)果;
- 散點(diǎn)圖組件(Scatter Plot),顯示選定數(shù)據(jù)的散點(diǎn)圖;
- 箱形圖組件(Box Plot),顯示選定數(shù)據(jù)的箱型圖。
- 組件之間的連線代表了數(shù)據(jù)流的方向。
通過這些組件的簡(jiǎn)單組合,構(gòu)建了一個(gè)交互式分類樹瀏覽器。我們可以點(diǎn)擊這些組件,對(duì)其進(jìn)行設(shè)置和調(diào)整,例如文件組件:
文件組件可以加載數(shù)據(jù)文件或者在線 URL 資源,并且對(duì)每個(gè)數(shù)據(jù)屬性的類型、角色等進(jìn)行設(shè)置。分類樹組件可以對(duì)決策算法進(jìn)行設(shè)置:
?分類樹可視化組件可以提供直觀的分類結(jié)果:
散點(diǎn)圖組件可以根據(jù)分類樹可視化組件中選擇的節(jié)點(diǎn)數(shù)據(jù)顯示相應(yīng)的散點(diǎn)圖,實(shí)現(xiàn)同步刷新:
我們也可以從 Orange 官方網(wǎng)站下載更多的示例。Orange Data Mining - Workflows
對(duì)于初學(xué)者而言,只需要在 Orange 圖形界面中通過拖拽加點(diǎn)擊的方式就可以實(shí)現(xiàn)常見的數(shù)據(jù)分析、探索、可視化以及數(shù)據(jù)挖掘任務(wù);對(duì)于高級(jí)用戶,可以通過開發(fā)自定義的組件(Widget)實(shí)現(xiàn)擴(kuò)展的功能,或者在 Python 中利用 Orange 代碼庫編寫數(shù)據(jù)挖掘腳本程序。相關(guān)內(nèi)容可以參考 Orange 官方文檔。
參考:
Orange:一個(gè)基于 Python 的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)平臺(tái)_orange python_不剪發(fā)的Tony老師的博客-CSDN博客文章來源:http://www.zghlxwxcb.cn/news/detail-717518.html
入門教程:https://blog.csdn.net/weixin_39461079/category_12101011.html文章來源地址http://www.zghlxwxcb.cn/news/detail-717518.html
到了這里,關(guān)于Orange:一個(gè)基于 Python 的數(shù)據(jù)挖掘可視化平臺(tái)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!