码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘相关知识

时间:2015-05-03 21:54:07      阅读:162      评论:0      收藏:0      [点我收藏+]

标签:

因为最近在复习数据挖掘。。。故百度了解数据挖掘的相关知识。。。

 

 

什么是数据挖掘??

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

为什么要进行数据挖掘??

需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。

数据挖掘的发展阶段:

  • 电子邮件阶段:这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长
  • 信息发布阶段:从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。中小企业如何把握好从“粗放型”到“精准型”营销时代的电子商务。
  • 电子商务阶段:EC在美国也才刚刚开始,之所以把EC列为一个划时代的东西,是因为Internet的最终主要商业用途,就是电子商务。同时反过来也可以说,若干年后的商业信息,主要是通过Internet传递。Internet即将成为我们这个商业信息社会的神经系统。1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上美国总统克林顿提出敦促各国共同促进电子商务发展的议案,其引起了全球首脑的关注,IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。
  • 全程电子商务阶段:随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网[5],延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。也因此形成了一门独立的学科——数据挖掘与客户关系管理硕士。

数据挖掘的步骤:

  • 数据清理
  • 数据集成
  • 数据选择
  • 数据变换
  • 数据挖掘
  • 模式评估
  • 知识表示

数据挖掘的经典算法:

  1. C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。
  2. K-means算法:是一种聚类算法。
  3.SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中
  4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。
  5.EM:最大期望值法。
  6.pagerank:是google算法的重要内容。
  7. Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。
  8.KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。
  9.Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)
  10.Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。

数据挖掘的相关软件:

  • SAS EM
  • IBM旗下SPSS公司的Modeler
  • 神舟通用公司的K-Miner

数据挖掘相关知识

标签:

原文地址:http://www.cnblogs.com/yudoudou/p/4474743.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!