码迷,mamicode.com
首页 >  
搜索关键字:数据脱敏 datamasker 数据漂白 数据清洗    ( 383个结果
大数据分析处理基本流程
大数据分析处理基本流程 数据准备 数据获取(爬虫,统计) 数据清洗(获得想要的数据,去除无用的相关数据) 特征工程 特征提取 比如我爬下网页,网页中有图片,视频,文本信息,url等等之类的特征消息 特征选择 网页保存这学生的信息,我想要计算每个学生的BMI(身体质量指数),而这类信息是在网页中的文本 ...
分类:其他好文   时间:2020-03-07 09:34:06    阅读次数:186
Kettle的使用——大数据清洗技术
参考德拓视频学习:http://113.31.104.47/portal/#/course/courseDetail/b34d160db64624732ef152a1118af11a?courseId=1b7e84f4eb8552536e2267093dbd7972 kettle安装:下载包直接解压 ...
分类:其他好文   时间:2020-03-02 00:35:39    阅读次数:798
数据清洗 | 通过 Z-Score 方法判断异常值
判断异常值方法:Z-Score 计算公式 Z = (X-μ)/σ 其中μ为总体平均值,X-μ为离均差,σ表示标准差。z的绝对值表示在标准差范围内的原始分数与总体均值之间的距离。当原始分数低于平均值时,z为负,以上为正。 代码演示 1 生成一个 df 1 import pandas as pd # 导 ...
分类:其他好文   时间:2020-02-27 13:15:49    阅读次数:675
正则之利用元素属性进行匹配
当爬虫或者数据清洗时,会遇到知道id、class以及name属性 来匹配信息,获取数据的时候。 以下即可,自己自行替换属性以及添加url最后改成符合自己 需求的匹配模板和匹配对象即可。需要注意的一点是,记得查看匹配对象的类型。 html = requests.get(url).texthtml = ...
分类:其他好文   时间:2020-02-24 14:56:15    阅读次数:42
数据清洗&模型调优
数据清洗来源:https://www.cnblogs.com/charlotte77/p/5606926.html 模型调优来源:https://www.cnblogs.com/zackstang/p/12313789.html ...
分类:其他好文   时间:2020-02-20 12:57:52    阅读次数:65
大数据开发:Hadoop配置
一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:其他好文   时间:2020-02-19 10:28:03    阅读次数:94
11 信息化领域热词分类分析及解释 第五步按目录爬取热词
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, ...
分类:其他好文   时间:2020-02-15 00:13:41    阅读次数:141
09 信息化领域热词分类分析及解释 第三步 将清洗完毕的热词添加百度百科解释
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, ...
分类:其他好文   时间:2020-02-11 00:41:47    阅读次数:66
数据清洗之数据转换 日期格式、字符串、高阶函数
数据清洗之数据转换 1.日期格式数据处理 In [ ]: import numpy as np import pandas as pd In [ ]: import os os.chdir(r'F:\CSDN\课程内容\代码和数据') In [ ]: df = pd.read_csv('baby_t ...
分类:其他好文   时间:2020-02-06 14:45:31    阅读次数:94
信件分析实战(五)——数据可视化
昨天我将一个数据的可视化完成,以及数据清洗出来了,今天完成了数据的简单可视化,之后将进行对echarts图表的操作,(图表联动,美化图表)等操作。 今天成果展示: 饼图: 柱状图: 这两个的代码基本和之前的一样,是在原来的基础上更新的。 源代码: <%@ page language="java" c ...
分类:其他好文   时间:2020-02-05 18:56:12    阅读次数:87
383条   上一页 1 ... 5 6 7 8 9 ... 39 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!