詳情點擊鏈接:Python 數(shù)據(jù)挖掘與機器學習
一:Python編程
Python編程入門
1、Python環(huán)境搭建(?下載、安裝與版本選擇)。
2、如何選擇Python編輯器?(IDLE、Notepad++、PyCharm、Jupyter…)
3、Python基礎(chǔ)(數(shù)據(jù)類型和變量、字符串和編碼、list和tuple、條件判斷、循環(huán)、函數(shù)的定義與調(diào)用等)
4、常見的錯誤與程序調(diào)試
5、第三方模塊的安裝與使用
6、文件讀寫(I/O)
Python進階與提高
1、Numpy模塊庫(Numpy的安裝;ndarray類型屬性與數(shù)組的創(chuàng)建;數(shù)組索引與切片;Numpy常用函數(shù))
2、Pandas模塊庫(DataFrame數(shù)據(jù)結(jié)構(gòu)、表格的變換、排序、拼接、融合、分組等)
3、Matplotlib基本圖形繪制(線形圖、柱狀圖、餅圖、氣泡圖、直方圖、箱線圖、散點圖等)
4、圖形樣式的美化(顏色、線型、標記、字體等屬性的修改)
5、圖形的布局(多個子圖繪制、規(guī)則與不規(guī)則布局繪制、向畫布中任意位置添加坐標軸)
6、高級圖形繪制(3D圖、等高線圖、棉棒圖、啞鈴圖、漏斗圖、樹狀圖、華夫餅圖等)
7、坐標軸高階應(yīng)用(共享繪圖區(qū)域的坐標軸、坐標軸刻度樣式設(shè)置、控制坐標軸的顯示、移動坐標軸的位置)
二:特征工程
1:數(shù)據(jù)清洗
1、描述性統(tǒng)計分析(數(shù)據(jù)的頻數(shù)分析:統(tǒng)計直方圖;數(shù)據(jù)的集中趨勢分析:算數(shù)平均值、幾何平均數(shù)、眾數(shù)、極差與四分位差、平均離差、標準差、離散系數(shù);數(shù)據(jù)的分布:偏態(tài)系數(shù)、峰度;數(shù)據(jù)的相關(guān)分析:相關(guān)系數(shù))
2、數(shù)據(jù)標準化與歸一化(為什么需要標準化與歸一化?)
3、數(shù)據(jù)異常值、缺失值處理
4、數(shù)據(jù)離散化及編碼處理
5、手動生成新特征
變量降維
1、主成分分析(PCA)
2、偏最小二乘(PLS)
特征選擇
1、常見的特征選擇方法(優(yōu)化搜索、Filter和Wrapper等;前向與后向選擇法;區(qū)間法;無信息變量消除法;正則稀疏優(yōu)化方法等)
群優(yōu)化算法
1、遺傳算法(Genetic Algorithm, GA)的基本原理(以遺傳算法為代表的群優(yōu)化算法的基本思想是什么?粒子群算法、蜻蜓算法、蝙蝠算法、模擬退火算法等與遺傳算法的區(qū)別與聯(lián)系)
2、遺傳算法的Python代碼實現(xiàn)
3、實踐一:一元函數(shù)的尋優(yōu)計算
4、實踐二:離散變量的尋優(yōu)計算(特征選擇)
三:回歸擬合模型
線性回歸模型
1、一元線性回歸模型與多元線性回歸模型(回歸參數(shù)的估計、回歸方程的顯著性檢驗、殘差分析)
2、嶺回歸模型(工作原理、嶺參數(shù)k的選擇、用嶺回歸選擇變量)
3、LASSO模型(工作原理、特征選擇、建模預(yù)測、超參數(shù)調(diào)節(jié))
4、Elastic Net模型(工作原理、建模預(yù)測、超參數(shù)調(diào)節(jié))
前向型神經(jīng)網(wǎng)絡(luò)
1、BP神經(jīng)網(wǎng)絡(luò)的基本原理(人工智能發(fā)展過程經(jīng)歷了哪些曲折?人工神經(jīng)網(wǎng)絡(luò)的分類有哪些?BP神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和訓練過程是怎樣的?什么是梯度下降法?BP神經(jīng)網(wǎng)絡(luò)建模的本質(zhì)是什么?)
2、BP神經(jīng)網(wǎng)絡(luò)的Python代碼實現(xiàn)(怎樣劃分訓練集和測試集?為什么需要歸一化?歸一化是必須的嗎?什么是梯度爆炸與梯度消失?)
3、BP神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化(隱含層神經(jīng)元個數(shù)、學習率、初始權(quán)值和閾值等如何設(shè)置?什么是交叉驗證?)
4、值得研究的若干問題(欠擬合與過擬合、泛化性能評價指標的設(shè)計、樣本不平衡問題等)
5、極限學習機(Extreme?Learning Machine, ELM)的工作原理
四:分類識別模型
KNN、貝葉斯分類與支持向量機
1、KNN分類模型(KNN算法的核心思想、距離度量方式的選擇、K值的選取、分類決策規(guī)則的選擇)
2、樸素貝葉斯分類模型(伯努利樸素貝葉斯BernoulliNB、類樸素貝葉斯CategoricalNB、高斯樸素貝葉斯besfGaussianNB、多項式樸素貝葉斯MultinomialNB、補充樸素貝葉斯ComplementNB)
3、SVM的工作原理(SVM的本質(zhì)是解決什么問題?SVM的四種典型結(jié)構(gòu)是什么?核函數(shù)的作用是什么?什么是支持向量SVM擴展知識(如何解決多分類問題?SVM除了建模型之外,還可以幫助我們做哪些事情?)
決策樹、隨機森林、LightGBM、XGBoost
1、決策樹的工作原理(微軟小冰讀心術(shù)的啟示;什么是信息熵和信息增益?ID3算法和C4.5算法的區(qū)別與聯(lián)系);決策樹除了建模型之外,還可以幫我們做什么事情?
2、隨機森林的工作原理(為什么需要隨機森林算法?廣義與狹義意義下的“隨機森林”分別指的是什么?“隨機”體現(xiàn)在哪些地方?隨機森林的本質(zhì)是什么?怎樣可視化、解讀隨機森林的結(jié)果?)
3、Bagging與Boosting的區(qū)別與聯(lián)系
4、AdaBoost?vs. Gradient Boosting的工作原理
5.?常用的GBDT算法框架(XGBoost、LightGBM)
五:聚類分析算法
K均值、DBSCAN、層次聚類
1、K均值聚類算法的工作原理
2、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類算法的工作原理
層次聚類算法的工作原理
六:關(guān)聯(lián)分析算法
關(guān)聯(lián)規(guī)則協(xié)同過濾Apriori算法
1、關(guān)聯(lián)規(guī)則算法的工作原理
2、協(xié)同過濾算法的工作原理
3、Apriori算法的工作原理
七:總結(jié)與答疑討論
信息檢索與常用科研工具
1、如何無障礙地訪問Google、YouTube等網(wǎng)站?(谷歌訪問助手、VPN等)
2、如何查閱文獻資料?怎樣能夠保證對最新論文的追蹤?
3、Google?Scholar、ResearchGate的使用方法
4、應(yīng)該去哪些地方查找與論文配套的數(shù)據(jù)和代碼?
5、文獻管理工具的使用(Endnote、Zotero等)文章來源:http://www.zghlxwxcb.cn/news/detail-604037.html
6、當代碼出現(xiàn)錯誤時,應(yīng)該如何高效率解決?文章來源地址http://www.zghlxwxcb.cn/news/detail-604037.html
到了這里,關(guān)于Python 數(shù)據(jù)挖掘與機器學習教程的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!