码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
什么是数据清洗?(翻译自维基百科)
Data cleaning[edit] Once processed and organized, the data may be incomplete, contain duplicates, or contain errors. The need for data cleaning will a ...
分类:其他好文   时间:2016-07-09 07:03:59    阅读次数:270
ch4-SPSS Statistics操作进阶
知识点: 单选题、多选题录入 分析前的数据清洗,包括删除重复记录、异常值、逻辑校验 总体和样本分布结构不一致的情况下的数据加权 相关问题分析时的交叉表 1、项目背景 2、问卷录入 单选题的定义: 当定义了变量的值,如:1=“男”,2=“女”,在录入时可以通过“显示指标签”图标来通过下拉框选择的方法“ ...
分类:其他好文   时间:2016-07-04 18:34:22    阅读次数:152
终究未能留下,秦致被动离去,汽车之家已变天
秦致出局,汽车之家与平安之间的纠葛算是彻底告一段落。这件事从资本层面,秦致被平安剥夺CEO职位无可厚非,但从情理上汽车之家的功臣元老被资本无情的清洗出局让不禁让人唏嘘。这也再次证明一个老生常谈的问题,资本拥有天使与魔鬼的两面性,说变脸就会变脸。走了就走了,秦致..
分类:其他好文   时间:2016-07-02 14:41:00    阅读次数:171
特征工程
L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...
分类:其他好文   时间:2016-06-29 20:40:42    阅读次数:501
大数据系统之系统设计
大数据已经成为一种发展趋势,得到越来越多的公司参与。最近从事大数据系统设计开发和推荐引擎方面的工作,分几篇文章两个系列把自己的心得记录一下, 和大家分享一下大数据方面的经验。 整个平台包括监控系统、日志分析系统、推荐系统。按数据业务步骤划分,分为数据采集、清洗、存储、分析和服务。整个数据流程如下图: ...
分类:其他好文   时间:2016-06-26 21:01:35    阅读次数:250
机器学习实战3:逻辑logistic回归:病马实例
本文介绍logistic回归,和改进算法随机logistic回归,及一个病马是否可以治愈的案例。例子中涉及了数据清洗工作,缺失值的处理。 一 引言 1 sigmoid函数,这个非线性函数十分重要,f(z) = 1 / (1 + e^(-z) ), 画图如下: 这个函数可以很好的把数轴上的值映射到0, ...
分类:其他好文   时间:2016-06-25 23:00:12    阅读次数:511
数据质量及数据清洗方法
先对其进行介绍: 数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。[1] 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为 ...
分类:其他好文   时间:2016-06-22 21:54:11    阅读次数:204
海量数据挖掘之中移动流量运营系统
通过本文的学习主要是进一步了解海量数据挖掘的框架流程,对数据采集流程、内容识别、知识库的建立以及行为轨迹增强有初步的了解,学会简单的url清洗以及能够开发出简单的分类MapReducer程序。对于运营商来说,使用海量数据挖掘对客户移动互联网行为进行采集,分析,发现用户关注的内容,为开展营销提供号码支持。当然,也不局限于这些功能。例如一个用户在用手机看小说,那么肯定有一个url的网址啦,用户所有访问的网址,ip,时间戳,上下行流量,基站,网络模式,手机型号等一大串信息都会被记录下来并在运营商的的云端进行存储...
分类:移动开发   时间:2016-06-17 07:24:29    阅读次数:330
命令行中的数据科学
目录 前言 XIII 第1章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数 ...
分类:其他好文   时间:2016-06-14 23:34:52    阅读次数:259
你为什么需要大数据?看台湾企业家怎么说
企业必须思索:你为什么需要大数据?要做大数据,最大的挑战就是有很多未知,也需要很多投资,像红门互动就投资数据分析工具、人员,甚至是储存设备。蒐集回来的多为杂乱数据,数据杂乱则代表资 讯源不一致,所以红门互动有70%的时间都在做数据清洗,再进入分析过程做数据计算?.
分类:其他好文   时间:2016-06-13 19:27:51    阅读次数:173
781条   上一页 1 ... 58 59 60 61 62 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!