搜索关键字：数据脱敏 datamasker 数据漂白数据清洗，搜索到383个结果！码迷,mamicode.com！

大数据分析处理基本流程

大数据分析处理基本流程数据准备数据获取（爬虫，统计）数据清洗（获得想要的数据，去除无用的相关数据）特征工程特征提取比如我爬下网页，网页中有图片，视频，文本信息，url等等之类的特征消息特征选择网页保存这学生的信息，我想要计算每个学生的BMI（身体质量指数），而这类信息是在网页中的文本 ...

分类：其他好文时间：2020-03-07 09:34:06 阅读次数：186

Kettle的使用——大数据清洗技术

参考德拓视频学习：http://113.31.104.47/portal/#/course/courseDetail/b34d160db64624732ef152a1118af11a?courseId=1b7e84f4eb8552536e2267093dbd7972 kettle安装：下载包直接解压 ...

分类：其他好文时间：2020-03-02 00:35:39 阅读次数：798

数据清洗 | 通过 Z-Score 方法判断异常值

判断异常值方法：Z-Score 计算公式 Z = (X-μ)/σ 其中μ为总体平均值，X-μ为离均差，σ表示标准差。z的绝对值表示在标准差范围内的原始分数与总体均值之间的距离。当原始分数低于平均值时，z为负，以上为正。代码演示 1 生成一个 df 1 import pandas as pd # 导 ...

分类：其他好文时间：2020-02-27 13:15:49 阅读次数：675

正则之利用元素属性进行匹配

当爬虫或者数据清洗时，会遇到知道id、class以及name属性来匹配信息，获取数据的时候。以下即可，自己自行替换属性以及添加url最后改成符合自己需求的匹配模板和匹配对象即可。需要注意的一点是，记得查看匹配对象的类型。 html = requests.get(url).texthtml = ...

分类：其他好文时间：2020-02-24 14:56:15 阅读次数：42

数据清洗&模型调优

数据清洗来源:https://www.cnblogs.com/charlotte77/p/5606926.html 模型调优来源:https://www.cnblogs.com/zackstang/p/12313789.html ...

分类：其他好文时间：2020-02-20 12:57:52 阅读次数：65

大数据开发：Hadoop配置

一、相关知识回顾分布式文件存储信息源：购买信息元（对海量数据清洗）自营提供（限于大公司）爬虫、抓包信息格式：文件、文本、sql、json 分布式计算离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移：hdfs mysql flume数据上 ...

分类：其他好文时间：2020-02-19 10:28:03 阅读次数：94

11 信息化领域热词分类分析及解释第五步按目录爬取热词

功能要求为：1，数据采集，定期从网络中爬取信息领域的相关热词 2，数据清洗：对热词信息进行数据清洗，并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3，热词解释：针对每个热词名词自动添加中文解释（参照百度百科或维基百科） 4，热词引用：并对近期引用热词的文章或新闻进行标记，生成超链接目录， ...

分类：其他好文时间：2020-02-15 00:13:41 阅读次数：141

09 信息化领域热词分类分析及解释第三步将清洗完毕的热词添加百度百科解释

功能要求为：1，数据采集，定期从网络中爬取信息领域的相关热词 2，数据清洗：对热词信息进行数据清洗，并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3，热词解释：针对每个热词名词自动添加中文解释（参照百度百科或维基百科） 4，热词引用：并对近期引用热词的文章或新闻进行标记，生成超链接目录， ...

分类：其他好文时间：2020-02-11 00:41:47 阅读次数：66

数据清洗之数据转换日期格式、字符串、高阶函数

数据清洗之数据转换 1.日期格式数据处理 In [ ]: import numpy as np import pandas as pd In [ ]: import os os.chdir(r'F:\CSDN\课程内容\代码和数据') In [ ]: df = pd.read_csv('baby_t ...

分类：其他好文时间：2020-02-06 14:45:31 阅读次数：94

信件分析实战（五）——数据可视化

昨天我将一个数据的可视化完成，以及数据清洗出来了，今天完成了数据的简单可视化，之后将进行对echarts图表的操作，（图表联动，美化图表）等操作。今天成果展示：饼图：柱状图：这两个的代码基本和之前的一样，是在原来的基础上更新的。源代码： <%@ page language="java" c ...

分类：其他好文时间：2020-02-05 18:56:12 阅读次数：87