码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
做Data Mining,其实大部分时间都花在清洗数据
做Data Mining,其实大部分时间都花在清洗数据 时间 2016-12-12 18:45:50 51CTO 原文 http://bigdata.51cto.com/art/201612/524771.htm 主题 数据挖掘 时间 2016-12-12 18:45:50 51CTO 原文 htt ...
分类:其他好文   时间:2017-09-05 01:42:24    阅读次数:181
P1113 杂务
题目描述 John的农场在给奶牛挤奶前有很多杂务要完成,每一项杂务都需要一定的时间来完成它。比如:他们要将奶牛集合起来,将他们赶进牛棚,为奶牛清洗乳房以及一些其它工作。尽早将所有杂务完成是必要的,因为这样才有更多时间挤出更多的牛奶。当然,有些杂务必须在另一些杂务完成的情况下才能进行。比如:只有将奶牛 ...
分类:其他好文   时间:2017-08-25 20:27:54    阅读次数:165
数据清洗
预处理阶段 预处理阶段主要做两件事情: 一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。 二是看数据。这里包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是 ...
分类:其他好文   时间:2017-08-24 19:48:26    阅读次数:182
机器学习:过拟合与正则化
过拟合的定义:过拟合是指模型过度拟合训练集, 学到训练集中过多的噪音或随机波动,导致模型泛化能力差的情况。它表现为在训练集上表现良好,在测试集上表现差。 解决方法:1.重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。 2.数据集扩增(data au ...
分类:其他好文   时间:2017-08-23 23:09:16    阅读次数:611
pandas深入理解
Pandas是一个Python库,旨在通过“标记”和“关系”数据以完成数据整理工作,库中有两个主要的数据结构Series和DataFrame 本文主要说明完成数据整理的几大步骤: 1.数据来源 1)加载数据 2)随机采样 2.数据清洗 0)数据统计(贯穿整个过程) 1)处理缺失值 2)层次化索引 3 ...
分类:其他好文   时间:2017-08-20 17:02:59    阅读次数:300
【转载】ETL 浅谈
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的 ...
分类:其他好文   时间:2017-08-14 21:29:09    阅读次数:165
大数据的管理艺术
数据分析应用是真正能够直接解决企业问题的,是显露在外可以直接观察的部分,但是在这之下有很大部分支撑数据分析应用的就是数据管理技术。数据分析应用需要一整套的处理和加工过程,数据就是原材料,需要把数据有序地存储和管理起来。然后是数据的整理、清洗、集成,这个过程主要由数据工程师(DataEngineer) ...
分类:其他好文   时间:2017-08-10 01:18:34    阅读次数:248
R语言使用机器学习算法预测股票市场
quantmod 介绍 quantmod 是一个非常强大的金融分析报, 包含数据抓取,清洗,建模等等功能. 1. 获取数据 getSymbols 默认是数据源是yahoo 获取上交所股票为 getSymbols("600030.ss"), 深交所为 getSymbols("000002.sz"). ...
分类:编程语言   时间:2017-08-08 23:15:07    阅读次数:906
R语言——任务2
恢复内容开始 题目要求: 数据处理第二阶段任务(必须全部用R代码实现)1.数据清洗2.获取每天的血糖日均值3.根据数据文件,选择其中的任意三天,获取在哪些时段三天都会出现高血糖的状况(按照血糖值超出9来算) R代码: 运行代码视图: 结论: 1、总的血糖日平均值:9.791199、6/2血糖平均值: ...
分类:编程语言   时间:2017-08-06 16:56:29    阅读次数:184
异常点/离群点检测算法——LOF
http://blog.csdn.net/wangyibo0201/article/details/51705966 在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的一个方向,用于反作弊、伪基站、金融诈骗等领域。 异常检测方法,针对不同 ...
分类:编程语言   时间:2017-08-04 20:34:39    阅读次数:265
781条   上一页 1 ... 46 47 48 49 50 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!