數(shù)據(jù)分析
書籍推薦
入門讀物
- 深入淺出數(shù)據(jù)分析
- 啤酒與尿布
- 數(shù)據(jù)之美
- 數(shù)學之美
數(shù)據(jù)分析
- Scipy and Numpy
- Python for Data Analysis
- Bad Data Handbook
- 集體智慧編程
- Machine Learning in Action
- 機器學習實戰(zhàn)
- Building Machine Learning Systems with Python
- 數(shù)據(jù)挖掘導論
- Machine Learning for Hackers
專業(yè)讀物
- Introduction to Semi-Supervised Learning
- Learning to Rank for Information Retrieval
- Learning to Rank for Information Retrieval and Natural Language Process
- 推薦系統(tǒng)實戰(zhàn)
- Graphical Models, Exponential Families and Variational Inference
- Natural Language Processing with Python
機器學習教材
- The Elements of Statistical Learning
- 統(tǒng)計學習基礎
- 統(tǒng)計學習方法
- Machine Learning(Kevin Murrphy)
- Machine Learning: An Algorithmic Perspective
- Pattern Recognition And Machine Learning
- Bayesian Reasoning and Machine Learning
- Probabilistic Graphical Models
- Convex Optimization
數(shù)據(jù)網(wǎng)站
- Monthly Bulletin of Statistics Online:數(shù)據(jù)來源顧名思義,來自各個國家統(tǒng)計局和組織
- World Development Indicators:世界銀行的數(shù)據(jù)
- CIA world factbook: 中央情報局收集的數(shù)據(jù)
- IPUMS: 普查數(shù)據(jù)的集成網(wǎng)站
- ICPSR: Umich的數(shù)據(jù)中心收集的數(shù)據(jù)集
- Kaggle:競賽網(wǎng)站
量化
- 語言要求:
- 效率語言:C,C++, Java
- 快,編程復雜度高,維護難
- 不支持向量計算
- 膠水語言:Python, Ruby
- 實現(xiàn)簡單,編程復雜度高,維護相對簡單,支持向量運算
- 科學類語言:Matlab, R, S
- 支持向量計算
- 快速驗證想法
- Alpha演算類語言:Lisp, Clojure
- 查詢類語言:SQL, Q
- 效率語言:C,C++, Java
數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)統(tǒng)計,OLAP之間的關系
- 數(shù)據(jù)分析:用適當?shù)慕y(tǒng)計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。此方向更偏產(chǎn)品一些,極大的依賴分析經(jīng)驗和對數(shù)據(jù)的敏感度。
- 代表人物:
- Justin Cutroni: http://cutroni.com/blog/
- Joegh:http://webdataanalysis.net/
- 宋星: http://www.chinawebanalytics.cn/
- 藍鯨:http://bluewhale.cc/
- 代表人物:
- 數(shù)據(jù)挖掘:據(jù)挖掘主要是面向決策,從海量數(shù)據(jù)中挖掘不為人知、無法直觀得出的結論。例如內(nèi)容推薦、相關度計算等。此工作更注重數(shù)據(jù)內(nèi)在聯(lián)系,數(shù)據(jù)倉庫組建,分析系統(tǒng)開發(fā),挖掘算法設計,甚至很多時候要親力而為的從ETL開始處理原始數(shù)據(jù),因此對計算機水平有較高要求。一般廣度上不及數(shù)據(jù)分析,但深度上更為深入。使用工具除海量數(shù)據(jù)庫如Oracle,分布式計算Hadoop,C++,Java,Python等編程語言外,也有可能會用到第三方挖掘工具如Weka。更偏向于技術
- 代表人物:
- Jeff Hammerbacher,編寫《數(shù)據(jù)之美》
- 探索推薦引擎內(nèi)部的秘密
- 代表人物:
- 數(shù)據(jù)統(tǒng)計:注于建模及統(tǒng)計分析,通過概率、統(tǒng)計、離散等數(shù)學知識建立合理模型,充分發(fā)掘數(shù)據(jù)內(nèi)容。例如用回歸分析,充分利用網(wǎng)站歷史數(shù)據(jù),進行評估、預測、反向預測、發(fā)掘因素。利用貝葉斯方法建立模型來進行機器學習、聚類、垃圾郵件過濾等。常用工具如:SAS,R,SPSS,更偏向于數(shù)學,在互聯(lián)網(wǎng),金融,醫(yī)療領域應用廣泛
- OLAP:建立數(shù)據(jù)系統(tǒng)的方法,核心思想就是建立多維度的數(shù)據(jù)立方體,以維度(Dimension)和度量(Measure)為基本概念,輔以元數(shù)據(jù),實現(xiàn)可以鉆取、切片、切塊、旋轉等靈活、系統(tǒng)、直觀的數(shù)據(jù)展現(xiàn)。嚴格使用OLAP的一般都是些制造業(yè)、零售業(yè)等相對傳統(tǒng)的行業(yè),作為BI的延伸,對公司決策提供有力支撐
統(tǒng)計學分析-Python VS R
R主要在學術界流行,python(numpy scipy)在工程方便比較實用。
- 性能:
- R處理文本文件很慢
- python很容易變得更快,pypy,cython,或者直接ctypes掛C庫
- 并行計算:
- R v15 之后有了自帶的parallel包,使用挺輕松的
- Python有multiprocessing,可以共享數(shù)據(jù)
- 學習曲線:
- R一開始還是很容易上手的,查到基本的命令,如果要自己寫算法、優(yōu)化性能的時候,學習難度陡增。
- Python-挺好學的,豐富的包供使用
- 畫圖:
- R自帶的那些工具就挺好用,ggplot這種非常優(yōu)美的得力工具
- python 有matplotlib比R自帶的好一些些,界面基于QT,跨平臺支持
- IDE:
- Rstudio非常不錯,提供類matlab環(huán)境
- Python:Vscode,Pycharm
- 建議:
- 如果只是處理(?。?shù)據(jù)的,用R
- 要自己搞個算法、處理大數(shù)據(jù)、計算量大的,用python
值得推薦的R語言的書
初學者入門
- R in Action
- The Art of_R Programming
- learning R
統(tǒng)計進階
- A Handbook of Statistical Analyses Using R
- Modern Applied Statistics With S
科學計算
- Introduction to Scientific Programming and Simulation Using R
數(shù)據(jù)挖掘
- Data Mining with R Learning with Case Studies
- Machine Learning for Hackers
- An Introduction to Statistical Learning
數(shù)據(jù)繪圖
- ggplot2 Elegant Graphics for Data Analysis
- R Graphics Cookbook
參考手冊
- R Cookbook
- R in a Nutshell
高級編程
- R Programming for Bioinformatics
- software for data analysis programming with R
- Advanced R programming
Python應學習的包
- Pandas
- Numpy
- Scipy
- Matplotlib
- Scikit Learn
大數(shù)據(jù)如何處理
-
UC Berkeley Course Lectures: Analyzing Big Data With Twitter
-
第一、分解數(shù)據(jù):需要根據(jù)具體情況分析,可以把大CSV原始數(shù)據(jù)拆解成每年每個月的(以yyyyMM.csv的格式儲存),那子文件的數(shù)據(jù)量就可以降一到兩個數(shù)量級,這樣就可以用Matlab來處理,同時也間接完成了索引的工作。
-
第二、如果數(shù)據(jù)實在是非常巨型(100GB+),我建議采用非關系型數(shù)據(jù)庫(MonoDB等)來處理
-
海量數(shù)據(jù)分成兩塊,一是系統(tǒng)建設技術,二,海量數(shù)據(jù)應用。
- 系統(tǒng)建設技術:現(xiàn)在主流的技術是HADOOP,主要基于mapreduce的分布式框架。
- 海量數(shù)據(jù)應用:主要是數(shù)據(jù)挖掘和機器算法。
數(shù)據(jù)分析師的主要工作有哪些?發(fā)展前景如何?需要掌握哪些相關知識?
-
商業(yè)智能:商業(yè)智能=商業(yè)+智能
- 首先是商業(yè)檢驗智能技術。商業(yè)目標以及商務流程,限定了你能選用的分析方法。
- 其次是智能技術指導商業(yè)行為。業(yè)務人員不懂技術,技術人員不懂業(yè)務。
-
數(shù)據(jù)和數(shù)據(jù)倉庫
- 數(shù)據(jù)是數(shù)據(jù)分析的基礎,數(shù)據(jù)庫是數(shù)據(jù)的承載,數(shù)據(jù)倉庫是有主題的數(shù)據(jù)庫。
- 數(shù)據(jù)質量又可以分成兩大塊,“臟”數(shù)據(jù)的處理和數(shù)據(jù)來源口徑的追溯。garbage in garbage out。
- 報表:首先是確定報表的目的,這樣才能定下報表是清單級還是匯總級;其次選擇字段。再次是對字段做維度聚類,并做重要性排序。
-
數(shù)據(jù)挖掘:BI=圖表+數(shù)據(jù)挖掘的理解
-
算法:
- 程序=數(shù)據(jù)結構+算法
- 要成為一名高級分析師,那肯定得有一定深度的研究。知道針對特定的數(shù)據(jù)集,選用什么樣的算法,如何抽取樣本,抽取多大量的樣本(樣本出問題,整個項目都完蛋),算法適用條件是什么,比如線性回歸的:獨立性、常方差、正態(tài)性,怎么理解,哪些必須滿足。
- 二是客戶問到一些問題,知道如何去解釋,比如用決策樹計算出來的得分,為什么很多樣本得分是一樣的?客戶細分中,有沒有算法可以使得同一個客戶細分至兩個不同的客戶群
- 三是你能寫出針對特定問題的算法,現(xiàn)實中許多問題擁有其他問題一樣的共性,也有它自己的個性,某些時候針對個性的東西越強,分析效果越好,這就需要你手寫算法解決。
- 級的數(shù)據(jù)分析師,算法與數(shù)據(jù)結構的知識必不可少。搜索,排序,樹,圖之所以經(jīng)典,是因為它們簡單有效而且通用。
-
統(tǒng)計學與其中的分析邏輯問題:
- 經(jīng)常發(fā)現(xiàn)兩樣事物是互為因果互相加強的,“事物有普遍聯(lián)系”和“作用與反作用”的哲學原理。
-
商業(yè):
- 菲利普科特勒《市場營銷》
- 斯蒂芬魯賓斯的《管理學》
-
增值知識:
- 分析師寬廣的知識面必不可少,沒事看看心理學、歷史、地理、人口統(tǒng)計學(demography),瀏覽一下知乎,F(xiàn)T中文網(wǎng)。
-
數(shù)據(jù)信息圖:
- http://infosthetics.com/
- http://flowingdata.com/
- http://visual.ly/
-
資料:
- http://radar.oreilly.com/
- http://www.businessinsider.com
-
報告:
- http://vdisk.weibo.com/s/2YJeC
商業(yè)智能,是利用計算機對數(shù)據(jù)大量快速處理的特點,對眾多商業(yè)數(shù)據(jù)做圖與表的展現(xiàn)分析,并通過統(tǒng)計學的方法對數(shù)據(jù)進行智能學習和挖掘,輔助商業(yè)決策。商業(yè)智能的優(yōu)勢就在于它對海量數(shù)據(jù)的處理,以及可規(guī)則化邏輯化(這點部分繼承了數(shù)學的DNA),這些雜亂的數(shù)據(jù)讓人去處理和挖掘有用信息,基本是不可能的。
數(shù)據(jù)挖掘的系統(tǒng)教程是怎樣的,包含哪些教材
- Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining.
- Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques.
- Mining of Massive Dataset, by Anand Rajaraman and Jeff Ullman ( Derived from Stanford CS345)
- Programming Collective Intelligence, by Toby Segaran, August 2007.
- Beautiful Data by Toby Segaran, Jeff Hammerbacher
- The Text Mining Handbook by R. Feldman and J. Sanger
- Web Data Mining by Bing Liu
- The Elements of Statistical Learning (統(tǒng)計學習基礎) by Trevor Hastie etc
- 有志于專門深入數(shù)據(jù)挖掘的某個細分領域,最好直接讀相關的survey論文,和最新的直接看各大數(shù)據(jù)挖掘相關會議論文即可 ( KDD/SIGMOD/VLDB/ICDE/WSDM/ICDM etc)
- 《數(shù)據(jù)挖掘概念與技術》,作者:[加]Jiawei Han/Micheline Kamber 譯: 范明/孟小峰 等
- 《數(shù)據(jù)挖掘導論》,作者: [美]Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著
- 數(shù)據(jù)挖掘技術——市場營銷、銷售與客戶關系管理領域應用》作者: (美)貝瑞
- 《實用多元統(tǒng)計分析》
國內(nèi)外與信息可視化相關的專業(yè)博客、論壇、社區(qū)有哪些?
博客
- http://eagereyes.org
- http://flowingdata.com
- http://www.mcwetboy.net/maproom
- http://www.liesdamnedlies.com/visualization/
- http://www.informationisbeautiful.net/
- http://infosthetics.com/
- http://indiemaps.com/blog/
- http://graphjam.memebase.com/
- http://fivethirtyeight.blogs.nytimes.com/
- http://well-formed-data.net/
- http://www.visualcomplexity.com/vc/
可視化
- http://www.biostat.wisc.edu/%7Ekbroman/topten_worstgraphs/
- http://www.improving-visualisation.org/case-studies
- http://infovis.cs.vt.edu/cs5764/lectures/Lies.ppt
- http://sfew.websitetoolbox.com/
- http://colorusage.arc.nasa.gov/issues.php
- http://www.webdesignerdepot.com/2009/06/50-great-examples-of-data-visualization/
- http://old.siggraph.org/publications/newsletter/v33n3/contributions/davis.html
- http://www.math.yorku.ca/SCS/Gallery/
- http://www.infovis-wiki.net/
實際應用
- http://www.nytimes.com/2010/09/13/technology/13roadkill.html
- http://www.dailymail.co.uk/home/moslive/article-1272921/Ten-greatest-maps-changed-world.html
- http://www.nytimes.com/2009/11/19/opinion/19silver.html
- http://www.nytimes.com/2010/05/28/nyregion/28map.html
- http://www.nzherald.co.nz/building-construction/news/article.cfm?c_id=24&objectid=10671930
- http://wholemeal.co.nz/%7Emalc/darfield-earthquake-timeline/
- http://projects.nytimes.com/census/2010/explorer
- http://www.nytimes.com/2010/05/02/magazine/02self-measurement-t.html
- http://i.imgur.com/hmGgW.gif
- http://www.nytimes.com/2010/04/27/world/27powerpoint.html
- http://jec.senate.gov/republicans/public/index.cfm?p=CommitteeNews&ContentRecord_id=bb302d88-3d0d-4424-8e33-3c5d2578c2b0
- http://faculty.uoit.ca/collins/research/index.html
- http://www.chrisharrison.net/projects/visualization.html
- http://bits.blogs.nytimes.com/2009/12/17/a-day-in-the-life-of-nytimescom/
- http://www.style.org/
- http://www.nytimes.com/2008/08/31/technology/31novel.html
數(shù)據(jù)集
- http://snap.stanford.edu/data/index.html
- http://ngrams.googlelabs.com/datasets
- http://archive.ics.uci.edu/ml/
- http://kdd.ics.uci.edu/
- http://www.graphics.stanford.edu/courses/cs448b-04-winter/online_databases.html
論壇文章來源:http://www.zghlxwxcb.cn/news/detail-809852.html
- http://processing.org/- processing
- http://processingjs.org/- processing.js
- http://www.vischeck.com/
數(shù)據(jù)分析師和數(shù)據(jù)科學家有何區(qū)別?
- Data Scientists往往可以獨立完成一條龍的完整分析過程:從數(shù)據(jù)提取,整合、并進行分層,進行統(tǒng)計或其他復雜的分析,創(chuàng)造引人注目的可視化詮釋和效果,開發(fā)具有更寬廣應用前景的數(shù)據(jù)工具
- 偏向于data reseacher的有,多見于大型IT企業(yè),百度大腦的data scientist們多屬于這一類型,他們搞的是比較前沿的深度學習,平常會讀大量paper可能自己也會發(fā)
- 偏向于data creative的有,各種企業(yè)都會儲備,會ETL,懂模型、懂行業(yè),會展示溝通,比較能夠創(chuàng)造直接的價值
- 偏向于data developer的也有但是很少,他們不懂模型,只要給他們算法公式,他們就能用編程語言幫你實現(xiàn),實現(xiàn)算法是重要的技能,但是這種不懂模型不懂行業(yè)的,現(xiàn)在大多企業(yè)都不太會給這樣的人data scientist的title
- data reseacher:發(fā)明/改進模型算法然后給R寫package的
- data creative:用R作分析的
- data developer:覺得R太簡單不屑于用的+偶爾幫data reseacher給R寫package的
- 一個理想的data scientist應該是data developer、data creative、data researcher、data businessperson的結合,Ta往往能夠領導一個沒有被清晰定義的問題的回答過程,在這期間,data scientist對于完整分析過程的把控能力能夠幫助Ta主導項目的方向,整合各方資源,data scientist并不一定需要親身參與到技術開發(fā)過程中,但是Ta知道什么樣背景的人能夠勝任這些工作,知道怎樣組建適當?shù)膱F隊,也知道什么樣的模型或分析方法能夠適用,它們的優(yōu)缺點都是什么,怎樣改進,必要時懂得去查找學術界最新的研究成果并轉化;以及知道老板想要什么,始終牢牢把握問題的核心,及時糾偏。最后,把這一套回答此類問題的方法流程化,以應付以后出現(xiàn)類似問題。
綜上所述,data scientist應該是data developer, data creative, data researcher、data businessperson的結合,但又高于這四者,關鍵就在于Ta對于整個數(shù)據(jù)分析閉環(huán)的把控能力。有清晰定義的、循規(guī)蹈矩的Routine work不是data scientist的專長,data scientist的專長在于formulate、quantify未清晰定義的問題,data science這個領域本來就有協(xié)作性,靠一個人單打獨斗肯定不行,但只有data scientist這樣的“通才”才有能力領導那四種“專才”去解決棘手的問題。文章來源地址http://www.zghlxwxcb.cn/news/detail-809852.html
R中重要的一些命令或包
- CRAN - Package xkcd把你的圖繪制成xkcd http://xkcd.com
- CRAN - Package magrittr向前管道操作符以及其他一些操作符的別名
- CRAN - Package knitr自動化報告生成
- CRAN - Package functional函數(shù)編程的時候會用到
- CRAN - Package Rcpp R和cpp能這么方便地結合
- Slidify 用markdown做出漂亮的slides
大數(shù)據(jù)計算框架除了MapReduce還有哪些?
- 面向內(nèi)存迭代運算的spark,專門針對流式計算的storm等
- 更高級的Hive和PIG
相關課程
- CS236_DGM
- CS228_PGM
- CS221_AI
- CS229_ML
- CS230_DL
- CS224n_NLP
- CS231n_CNN
- CS234_RL
到了這里,關于探索數(shù)據(jù)的奧秘:一份深入淺出的數(shù)據(jù)分析入門指南的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!