一. 数据清洗主要工作 ? 噪声(Noise)消除 ? 噪声包含错误值(类别型字段)及离群值(数值型字段) ? 噪声使探勘结果有相当大的偏差,必须将噪声移除或将其做适当的处理 2. 空值(Missing Value)填补 ? 人工填补? 自动填补 二.噪声如何处理 噪声侦测方法 ? 针对类别型字段, ...
分类:
其他好文 时间:
2020-06-27 19:56:43
阅读次数:
253
需求:采集8类日志数据,并且进入es展示: 方案制定:目前数据采集通用flume+kafka模式,所以采用原有模式,一类服务进入一个topic,然后通过logstash进行数据清洗,最后进入es进行展示。 flume采用tadir 读取数据源,memory 进行缓存,kafka进行sink a1.s ...
分类:
Web程序 时间:
2020-06-26 22:29:32
阅读次数:
81
原数据: 183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSP ...
分类:
其他好文 时间:
2020-06-25 23:42:05
阅读次数:
72
今日默写 '''1 常用的图表有哪些,都适用哪些场景 2 数据分析的流程 3 数据清洗的流程 ''' 今日内容 常见业务指标 什么是指标 以电商数据为例分析常用的指标 如何选择业务指标 电商指标体系详细介绍 业务指标 一个衡量业务好坏的标准 了解业务: 1 公司是做什么,卖什么产品,服务对象,有哪些 ...
分类:
其他好文 时间:
2020-06-21 11:44:14
阅读次数:
60
数据科学概述 一、挑战 (一)工程实现 特征提取:对于原始数据进行处理:数据清洗、数据整合、变量归一化等,转换成能被模型使用的特征; 矩阵运算:使用算法来估算算法的模型参数;模型越复杂,需要估计的参数越多,在数学上对应着矩阵运算; 分布式机器学习:将原本在一台机器上运行的模型,改写成能在多台机器上并 ...
分类:
其他好文 时间:
2020-06-18 01:08:35
阅读次数:
87
不要再问我python好不好学了一个小学四年级的小孩子都能在科学的教学下独立完成python游戏,植物大战僵尸简单版,如果要肯花时间,接下来的网络开发也不是问题,人工智能也可以学个调包也没啥问题。。。。。所以python真的是想学就一定能学会的!!!!先聊聊互联网转行那些事儿很多人是小白,想从事或转行互联网,想以python为切入口,那么恭喜你,这可能是你离互联网工作最捷径的一条道路了,毕竟pyt
分类:
编程语言 时间:
2020-06-17 10:50:36
阅读次数:
81
1.数据清洗 步骤: 1.查询charge_record表业务类型为充值且订单状态为成功的数据 2.将上述数据转移到本地数据库 使用如下脚本: # coding=utf-8import pymysql# 原数据库链接db1 = pymysql.connect( host='***', port=33 ...
分类:
数据库 时间:
2020-06-12 19:54:51
阅读次数:
89
缺失值清洗: 1. 确定缺失值范围:根据缺失值范围来选择下一步操作; 2. 去除不需要的字段:直接删除该字段数据; 3. 填充:根据经验、建模预测等填充缺失值; 4. 重新获取:若信息很重要,确实率很高,可重新获取; 格式内容清洗 1. 时间、日期等,统一其格式; 2. 内容中不该存在的字符:如空格 ...
分类:
其他好文 时间:
2020-06-09 19:02:51
阅读次数:
82
以下汇总了我用R写过的一些数据分析工程 不定时更新 [1] 主要涉及: 数据清洗,线性回归模型拟合,模型选择(R-squared, AIC等),树形方法(rpart(), xgboost()等) github中有详细介绍及全部代码:https://github.com/wojamesyegit/R- ...
分类:
其他好文 时间:
2020-05-30 21:33:25
阅读次数:
100
一.重复值处理:直接删除为主。一般先处理重复行,再处理唯一值列。 以行为单位,查看重复值 df[df.duplicated()] 以行为单位,删除重复值 df.drop_duplicates() 以某列(如ID)为单位,查看重复值 df[df.duplicated('ID')] 以某列(如ID)为单 ...
分类:
其他好文 时间:
2020-05-26 12:03:52
阅读次数:
96