码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
sklearn fit transform fit_transform
scikit-learn提供了一系列转换库,他们可以清洗,降维,提取特征等。 在数据转换中有三个很重要的方法,fit,fit_transform,transform 1 2 3 初学时候好奇为何,训练样本用fit_transform,而测试样本用transform? 仔细阅读官方文档发现,fit方法 ...
分类:其他好文   时间:2019-02-20 15:54:55    阅读次数:166
pandas小结
pandas它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数 ...
分类:其他好文   时间:2019-02-18 10:24:11    阅读次数:190
超多分析结果表 简单字段关联 生成大宽表 的 并发拓展
年前有些放纵了,一直没有完成该篇的节奏感。推延至今 大数据量面前单机显然是不合适的,所以尝试将前述逻辑 并发化 考虑 以适应 分布式处理。 回溯数据清洗流程, 1.流量数据区间圈定, 2.流量数据按要求筛选聚合 3.各汇总表按唯一标志联合 在初步猜想中,需要一张包含所有唯一标志的主表,这也是减少匹配 ...
分类:其他好文   时间:2019-02-15 01:15:08    阅读次数:192
大数据热词科普(五)
在前面的文章中我们给大家讲述了很多有关大数据的热词,我们在这篇文章中给大家介绍结构化数据、半结构化数据、非结构化数据、数据清洗。这些词汇都是和数据分析有关的,下面我们就给大家详细地介绍一下这些词的意思。 ...
分类:其他好文   时间:2019-02-11 17:21:10    阅读次数:147
基于JAVA的IKAnalyzer中文分词运用
一、前提 IKAnalyzer分词器常应用于大数据开发的数据准备阶段,它能对任意长的文字进行关键字提取、文字重组、数据清洗等二次处理,并将处理好的关键数据通过某种分割符重新拼接起来,形成一个可用于进行机器学习的数据集。 二、准备阶段 使用eclipse创建一个Maven工程,通过配置pom.xml文 ...
分类:编程语言   时间:2019-02-03 22:10:17    阅读次数:464
个推用户画像的实践与应用
千万人撩你,不如一人懂你
分类:其他好文   时间:2019-01-29 14:53:56    阅读次数:162
使用pandas进行数据预处理01
数据预处理有四种技术:数据合并,数据清洗,数据标准化,以及数据转换。 数据合并技术:(1)横向或纵向堆叠合数据 (2)主键合并数据 (3)重叠合并数据 1.堆叠合并数据: 堆叠就是简单的把两个表拼接在一起,也被称作轴向连接,绑定,或连接。依照连接轴的方向,数据堆叠可分为横向堆叠和纵向堆叠。 (1)横 ...
分类:其他好文   时间:2019-01-26 22:05:48    阅读次数:198
大数据(MapReduce的编程细节及其Hive的安装,简单操作)
大数据课程第五天 MapReduce中,Reduce可以没有 (纯数据的清洗,不用Reduce) job.setNumReduceTasks(0); 设置多个Reduce // 默认在MapReduce中 Reduce的数量是1 job.setNumReduceTasks(3);?//为什么Redu ...
分类:其他好文   时间:2019-01-26 18:57:50    阅读次数:184
[Python数据挖掘]第4章、数据预处理
数据预处理主要包括数据清洗、数据集成、数据变换和数据规约,处理过程如图所示。 一、数据清洗 1.缺失值处理:删除、插补、不处理 ## 拉格朗日插值代码(使用缺失值前后各5个未缺失的数据建模) 2.异常值处理 3.数据变换 1)函数变换:将不具有正态分布的数据变换成正态分布的数据 2)规范化/归一化: ...
分类:编程语言   时间:2019-01-22 21:51:21    阅读次数:293
数据清洗
1、wideface数据 ...
分类:其他好文   时间:2019-01-21 20:05:48    阅读次数:284
781条   上一页 1 ... 27 28 29 30 31 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!