码迷,mamicode.com
首页 > 其他好文 > 详细

数据采集及预处理

时间:2016-05-20 19:44:45      阅读:1571      评论:0      收藏:0      [点我收藏+]

标签:

版权说明:内容来自互联网及书籍





一、数据采集方法

1.数据来源

一手数据:数据的直接来源。
二手数据:数据的间接来源。内部来源:比如财务报表,包括会计计算,成本资料等。外部来源:比如各类统计年鉴等,调查机构发布的数据等。

技术分享


2. 抽样方法

1. 分类

技术分享


技术分享

按照样本抽取方式不同分为:有放回抽样,无放回抽样

2.非概率抽样

技术分享

3. 概率抽样方法分类

概率抽样主要分为 简单随机抽样, 系统抽样, 分类抽样, 整群抽样, 多阶段抽样... 现实生活中绝大多数 抽样调查都采用概率抽样方法抽取样本

技术分享

技术分享

技术分享

技术分享

技术分享


4.简单随机抽样的样本量

技术分享
技术分享

二、市场调研

市场调研:对营销决策相关的数据进行计划、收集和分析,并把分析结果向管理者沟通的过程。

1. 市场调研的过程

1. 不同的营销调研目标(识别问题、需要什么信息)
2. 生成调研设计(描述性研究、还是因果性研究)
3. 选择调研方法(调查法、实验法、观察法)
4. 选择抽样方法 
5. 收集数据
6. 分析数据
7. 撰写并提交报告
8. 跟踪

2. 调查问卷

1.问卷分类

(1)结构型问卷:封闭式问卷、开放式问卷、半封闭式问卷
(2)非结构型问卷: 事先不准备表格、提问方式和标准化的备选答案,只是按照调查放向和询问内容,和被调查者自由交谈的问卷。

2. 封闭式和开放式问卷

技术分享
技术分享

3. 问卷设计原则

目的性原则
顺序性原则
简明性原则
匹配性原则
可接受原则

4. 问题的类型

技术分享

5. 问卷编码

各色各样的问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,我们详细举例介绍如下:
1 单选题:答案只能有一个选项
   例一 当前贵组织机构是否设有面向组织的职业生涯规划系统? 
  A有   B 正在开创   C没有   D曾经有过但已中断
编码:只定义一个变量,Value值1、2、3、4分别代表A、B、C、D 四个选项。
录入:录入选项对应值,如选C则录入3

2 多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选。
  (1)方法一(二分法)

   例二 贵处的职业生涯规划系统工作涵盖哪些组群?画钩时请把所有提示考虑在内。
  A月薪员工       B日薪员工     C钟点工
编码:把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:“0” 未选,“1” 选。
录入:被调查者选了的选项录入1、没选录入0,如选择被调查者选AC,则三个变量分别录入为1、0、1。
 (2)方法二:
   例三你认为开展保持党员先进性教育活动的最重要的目标是那三项:
  1(   )   2 ( )   3(   )
  A、提高党员素质  
  A、提高党员素质   B、加强基层组织 C、坚持发扬民主
  D、激发创业热情 E、服务人民群众   F、促进各项工作
  D、激发创业热情 E、服务人民群众   F、促进各项工作
编码:定义三个变量分别代表题目中的1、2、3三个括号,三个变量Value值均同样的以对应的选项定义,即:“1” A,“2” B,“3” C,“4” D,“5” E,“6” F
录入:录入的数值1、2、3、4、5、6分别代表选项ABCDEF,相应录入到每个括号对应的变量下。如被调查者三个括号分别选ACF,则在三个变量下分别录入1、3、6。
[注:能用方法二编码的多选题也能用方法编码,但是项数不定的多选只能用二分法,即方法一是多选题一般处理方法。]

3 排序题: 对选项重要性进行排序
  例四 您购买商品时在   ①品牌 ②流行 ③质量 ④实用 ⑤价格   中对它们的关注程度先后顺序是(请填代号重新排列) 
  第一位    第二位    第三位    第四位    
  第一位    第二位    第三位    第四位    第五位
               
编码:定义五个变量,分别可以代表第一位 第五位,每个变量的Value都做如下定义:“1” 品牌,“2” 流行,“3” 质量,“4” 实用,“5” 价格
录入:录入的数字1、2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。


4 选择排序题:
  例五 把例三中的问题改为“你认为开展保持党员先进性教育活动的最重的目标是那三项,并按重要性从高到低排序”,选项不变。
编码:以ABCDEF6个选项分别对应定义6个变量,每个变量的Value都做同样的如下定义:“1” 未选,“2” 排第一,“3” 排第二,“4” 排第三。
录入:以变量的Value值录入。比如三个括号里分别选的是    ECF,则该题的6个变量的值应该分别录入:1(代表A选项未选)、1、 3(代表C选项排在第二)、1、2、4。
[注:该方法是对多选题和排序题的方法结合的一种方法,对一般排序题(例四)也同样适用,只是两者用的分析方法不同(例四用频数分析、例五用描述分析),输出结果从不同的侧面反映问题的重要性(前一种方法从位次从变量的频数看排序,后一种方法从变量出发看排序)。]

5 开放性数值题和量表题:这类题目要求被调查者自己填入数值,或者打分
例六 你的年龄(实岁):______
编码:一个变量,不定义Value值
录入:即录入被调查者实际填入的数值。

6开放性文字题:
  如果可能的话可以按照含义相似的答案进行编码,转换成为封闭式选项进行分析。如果答案内容较为丰富、不容易归类的,应对这类问题直接做定性分析。


三、数据预处理方法

1. 数据预处理的基本步骤

(1)数据清洗 —— 去噪声和无关数据

(2)数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中

(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式

(4)数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。


2. 数据清洗

   (1)处理缺失值

技术分享

(2)平滑噪声值

BIN方法(分箱):通过考察邻近值,来光滑有序数据的值

聚类方法

(3)识别和处理异常值

异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值

识别方法:

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享


处理方法:盖帽法


(4)解决不一致问题


3. 数据集成

(1)、实体识别问题

数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并,存放那个在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。

自数据集成时,有许多问题需要考虑。模式集成对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”?这涉及实体识别问题。例如,数据分析者或者计算机如何才能确定一个数据库的customer_id与另一个数据库中的cust_number指的是相同的属性呢 ?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值得空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用于变换数据(例如,pay_type的数据编码在一个数据库中可以是“H”和“S”,而在另一个数据库中是1和2)。因此,这一步也与前面介绍的数据清理有关。

在集成期间,当一个数据库的属性和另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数和参考约束与目标系统中的匹配。例如,在一个系统中,discount可以用于订单,而在另外一个系统中,它被用于订单内的商品。如果在集成之前未发现,则目标系统中的商品可能被不正确地打折。

(2)、冗余和相关分析

冗余是数据集成的另一个重要问题。一个属性(例如,年收入)如果能由另一个或另一组属性”导出”,则这个属性可能是冗余的。属性或维命名的不一致可能导致结果数据集中的冗余。

有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用x^2(卡方)检测。对于数值属性,我们使用相关系数(correlation coefficient)和协方差(covariance),他们都评估一个属性的值如何随另一个变化。

(3)、元组重复

除了检测属性间的冗余外,还应当在元组级检测重复。去规范表是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或者由于更新了数据库的某些地方,但未更新所有的。

4. 数据变换


(1)数据的泛化和聚集
(2)数据标准化:最大最小规范  z-score规范 小数定标

min-max标准化(Min-max normalization)

  也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

技术分享

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致maxmin的变化,需要重新定义。


z-score 标准化(zero-mean normalization)

  也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:

技术分享

其中μ为所有样本数据的均值,σ为所有样本数据的标准差。


5. 数据消减

(1)维数消减:主成分分析,变量聚类分析
(2)离散化(连续)
(3)分类重组(离散)


数据采集及预处理

标签:

原文地址:http://blog.csdn.net/back_to_dream/article/details/51436266

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!