标签:
商业理解
对现行商业问题的剖析,根据网络数据,文档等对商业问题的一个初步理解,为数据挖掘提供方向。
比如对旧有商业模型的理解,对现行趋势的分析等。
数据理解
对现有数据的初步分析,使用统计,探测等方法对现有数据有一个大致上的了解,为下一步骤做准备。
比如根据统计结果查看属性的可用性与分布情况。
数据准备
对现有数据采取过滤无效数据、转换数据值、生成新属性、异常处理等操作来产生出可用于数据挖掘模型建立的数据。
具体流程:
- 清洗数据:处理数据中缺失和无效值,
- 构建数据:根据已有数据,构建更适合与数据挖掘的新数据字段,
- 选择数据:分析与过滤掉与商业问题不相关的数据字段,
- 格式化数据:根据算法不同改变数据形式
建立模型
将数据分成训练集与检验集,使用训练集建立模型,使用检验集检验模型得出结果
标签:
原文地址:http://my.oschina.net/sitan/blog/425387