大数据分析处理基本流程 数据准备 数据获取(爬虫,统计) 数据清洗(获得想要的数据,去除无用的相关数据) 特征工程 特征提取 比如我爬下网页,网页中有图片,视频,文本信息,url等等之类的特征消息 特征选择 网页保存这学生的信息,我想要计算每个学生的BMI(身体质量指数),而这类信息是在网页中的文本 ...
分类:
其他好文 时间:
2020-03-07 09:34:06
阅读次数:
186
参考德拓视频学习:http://113.31.104.47/portal/#/course/courseDetail/b34d160db64624732ef152a1118af11a?courseId=1b7e84f4eb8552536e2267093dbd7972 kettle安装:下载包直接解压 ...
分类:
其他好文 时间:
2020-03-02 00:35:39
阅读次数:
798
判断异常值方法:Z-Score 计算公式 Z = (X-μ)/σ 其中μ为总体平均值,X-μ为离均差,σ表示标准差。z的绝对值表示在标准差范围内的原始分数与总体均值之间的距离。当原始分数低于平均值时,z为负,以上为正。 代码演示 1 生成一个 df 1 import pandas as pd # 导 ...
分类:
其他好文 时间:
2020-02-27 13:15:49
阅读次数:
675
当爬虫或者数据清洗时,会遇到知道id、class以及name属性 来匹配信息,获取数据的时候。 以下即可,自己自行替换属性以及添加url最后改成符合自己 需求的匹配模板和匹配对象即可。需要注意的一点是,记得查看匹配对象的类型。 html = requests.get(url).texthtml = ...
分类:
其他好文 时间:
2020-02-24 14:56:15
阅读次数:
42
数据清洗来源:https://www.cnblogs.com/charlotte77/p/5606926.html 模型调优来源:https://www.cnblogs.com/zackstang/p/12313789.html ...
分类:
其他好文 时间:
2020-02-20 12:57:52
阅读次数:
65
一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:
其他好文 时间:
2020-02-19 10:28:03
阅读次数:
94
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, ...
分类:
其他好文 时间:
2020-02-15 00:13:41
阅读次数:
141
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, ...
分类:
其他好文 时间:
2020-02-11 00:41:47
阅读次数:
66
数据清洗之数据转换 1.日期格式数据处理 In [ ]: import numpy as np import pandas as pd In [ ]: import os os.chdir(r'F:\CSDN\课程内容\代码和数据') In [ ]: df = pd.read_csv('baby_t ...
分类:
其他好文 时间:
2020-02-06 14:45:31
阅读次数:
94
昨天我将一个数据的可视化完成,以及数据清洗出来了,今天完成了数据的简单可视化,之后将进行对echarts图表的操作,(图表联动,美化图表)等操作。 今天成果展示: 饼图: 柱状图: 这两个的代码基本和之前的一样,是在原来的基础上更新的。 源代码: <%@ page language="java" c ...
分类:
其他好文 时间:
2020-02-05 18:56:12
阅读次数:
87