码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘随笔1

时间:2018-05-19 15:44:54      阅读:187      评论:0      收藏:0      [点我收藏+]

标签:ida   文章   tree   标签   AC   数据集   real   通过   physical   

----------------------------------------------------------------------------

概览:

为什么需要数据挖掘:

  Data Rich Information Poor

数据挖掘的一些资料:

  搜索文章最好用google

  WEKA是新西兰研发的一款开源的免费的数据挖掘的软件,用户友好,可视化

  UCI有数据挖掘需要的一些数据集

  MATLAB各种各样软件包

  KDnuggets大型的数据挖掘的网站,一些information

---------------------------------------------------------------------------------

几个定义:

Data(Logical,Physical)

Big data(数据多,产生快,方方面面,数据类型越来越多)(大到传统意义的方法无法存储)

大数据及数据分析数据挖掘这些的应用:

Public Security(通过可视化直观看到规律,比如通过预测劫匪会抢劫的位置,在劫匪抢劫之前将其制止,降低犯罪率) 

Health Care Application(Personalized Madicine通过对DNA的分析,将换同样疾病的人使用不同的药物医治)

Location Data:Urban Planning(城市规划),Mobile User(家长知道孩子在哪里),Shopper(通过购物车RIFD射频标签获得购物者的轨迹,停留时间)

Retail Data:Targeted Marketing目标客户(分析喜好),Sentiment Analysis(情感分析,买完了以后的感受,识别出评价的一段话的开心或者不开心)

Social Network

Sports(Moneyball okaland点球成金)

Attractiveness Mining(怎么样的是女神,最有吸引力,把所有的信息都收集起来)

-----------------------------------------------------------------------------------------------------------------------------

分类问题Classification(打标签)(我之前通过训练告诉是猫是狗,训练出一个模型,后来给它喂一张图,它就知道是猫是狗):

Algorithm:

Decision Tree 决策树

K-Nearest Neighbours KNN

Neural Netwoks 神经网络

Support Vector Machines 支持向量机

分界面:

防止Overfitting,过拟合

Cross Validation(数据分为训练和测试两部分)

Confusion Matrix(混淆矩阵)

TP       FP

FN       TN 

Receiver Operating Characteristic(ROC)

AUC越接近于1越好

Cost Sensitive Learning(带着权重来考虑,错误的代价不同)

Lift Analysis提升度(把最有可能购买的客户分析出来,进行打电话询问,会比随机的效果好很多)

聚类和其他数据挖掘问题

Clustering(是没有标签的!没有事先的人为的标签)

不是我告诉它要聚成怎么样的,而是在这一个group里之间的距离比较接近自动聚为一组,不同group之间的差异是比较大的

Distance Merics:

Euclidean Distance欧式距离

Manhattan Diatance

Manalanobis Distance

Algorithms聚类算法:

K-Means

Saquential Leader

Affinity Propagation

Applications:

Market Research

Image Segmentation

Social Network Analysis

_

层次型聚类

Association Rule(关联规则,买了一个就可能买另一个)

Regression(线性回归,最终可以是曲线,也要防止Overfitting过拟合)

Seeing is Knowing(可以做一个可视化)

Performance Dashboard(将数据用一些图表,柱状图这些可以清晰的展示出来)

有一些可视化软件是非常有价值的,会看起来高大上一些(就不用自己来写软件了)

数据预处理(real data are ofen dirty)

 

数据挖掘随笔1

标签:ida   文章   tree   标签   AC   数据集   real   通过   physical   

原文地址:https://www.cnblogs.com/wangziyan/p/9060253.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!