码迷,mamicode.com
首页 > 其他好文 > 详细

数据分析流程简介

时间:2018-11-16 17:44:19      阅读:160      评论:0      收藏:0      [点我收藏+]

标签:nbsp   有用   决定   用途   交通   成本   现在   地铁   商业   

一、背景介绍

数据分析一开始的目的是对行业累计的大量数据进行分析,提取有用的信息,创造更大的价值,而随着电脑的计算能力和数据处理能力的提升,数据分析发展快速成长,现在常常听到的人工智能其实就是数据分析的一种演化与应用。

二、步骤

数据分析步骤可简单分类为下

1、确认目标:首先必须要先确定的是,我们要做什么,比如我们想要知道哪些客户的购买力更强,或是哪个时间点商品的销售量是最好的,或是新推出的商品该如何去定价,数据分析是有目标的,当然也有些时候分析人员意外发现了目标以外的信息,但大部分的时候在商业上的数据分析都是有目的性的。在确认目标的同时需要决定要分析哪些数据,还有就是用那种分析方式、那种算法

2、获取数据:在确立了目标后,就必须要去获取数据,传统的商业数据分析大部分只要从自己公司的数据库调取数据就好,但现在越来越多的数据是需要利用爬虫软件去获取,甚至是要和别人购买,或是做问卷调查,比如我们想要分析新推出的车子在市场的反应好不好,除了调取销售量以外,还需要把客户的问卷调查做统计显示,甚至是到论坛上将所有车友的评价抓取下来,综合起来才可以得到一份全方位的分析报告。

3、数据预处理:一般获取到的数据,即使是自己公司数据库里的数据,也很容易夹杂着脏数据,这些数据会影响到分析结果,或是让代码无法顺利跑完,所以得到数据后必须先将数据处理,处理数据的方式很多,针对不同种类的数据、不同用途的数据,清理的方式不一样。例如我是要训练文件分类器的,我要先将文章里面常见的字和罕见的字去除掉,或是要分析地方人均拥有车辆的数目,要把过大的数和非整数的数目清除,才不会影响到分析结果

4、测试算法:数据分析的算法很多,有一句话是这样说的“没有最好的算法,只有最适合的算法”,每种分析方式都有他的优缺点,而且是随时在变化的,也许当下这个算法是最好的,但可能过一阵子就会发现有比他更好的算法出现,像是是人工智能的发展,其实就是一种算法的发展,有些算法可能在人脸识别他的准确率不够高,但是用他来分析销售量的变化是非常准的。

5、调整参数:一个合适的算法,还需要有良好的参数,调整参数需要有大量的数据提供,这些数据在机器学习里面称为“训练材料”,决定一个人工智能够不够聪明,分析结果够不够准确,往往就是这个参数,不同的算法有不同的调整方式,这个过程称为“优化”,优化的方式也有很多,这边不一一细说,只举个简单的例子,今天我们要从办公室到家里,有很多种的交通方式,假如直接打车回家可能是最快的,但也是最贵的,假如走路回家是最省钱的,但是最慢,所以在不花太多钱,速度又不慢的情况就会选择走路+打车+地铁的组合,这种过程就是优化的一种,透过不同的组合,计算出成本,找出成本最低的,就是常见的优化方式

这边要提的一点是,机器学习有一种说法叫“过度学习(overfitting)”,就是训练完的参数在训练材料里跑出的结果100分,结果在正式使用的时候发现准确率不高,这是因为参数过度的去迎合训练材料,所以通常会将训练材料拆分成两个部分,一个用来优化参数,一个用来校验,这种方法叫交叉训练

 

数据分析流程简介

标签:nbsp   有用   决定   用途   交通   成本   现在   地铁   商业   

原文地址:https://www.cnblogs.com/yenpaul/p/9969699.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!