直接赋值、apply、assign、分条件赋值 仍旧以天气数据为案例 第一步:清洗数据 df.loc[:,'bWendu']=df['bWendu].str.replace('C','').astype('int32') 上图包含了直接赋值方法 第二、apply方法 df['wendu_type'] ...
分类:
其他好文 时间:
2020-07-20 22:29:31
阅读次数:
90
EdgeAgent功能列表: 1· 协议平台功能,内置协议驱动,对接工业物联网协议并进行数据采集。 2·数据过滤/清洗功能,去重数据减少传输冗余。 3·规则引擎功能,根据指定规则进行数据计算并即时上传至北向云端。 4·数据&日志 持久化功能,实现离线在线平滑过渡。 5·设备状态变更通知功能,通过邮件 ...
分类:
其他好文 时间:
2020-07-19 15:51:04
阅读次数:
58
Python爬虫 # 开发思路 准备 - 分析网页内容-结合chrome开发者模式 爬取原始数据 HTTP库 提取/清洗数据 保存 # 引入包 urllib - 指定url 获取网页信息 bs4 - 解析网页 re - 正则表达式,文字匹配 xlwt - excel操作 sqlite3 - SQLi ...
分类:
编程语言 时间:
2020-07-18 15:31:42
阅读次数:
66
业务数仓的DWD层一般有两个典型操作: ①因为是DWD层,所以要进行数据清洗。 ②因为数据来源于web项目的数据库,标的设计遵循三范式,因此在数仓里需要进行降维,以减少join次数。 在示例的8张表中,订单表,订单详情表,用户表,支付流水表字段与ODS层一致。对商品表的分类进行降维。增加二级分类,一 ...
分类:
其他好文 时间:
2020-07-02 00:05:06
阅读次数:
145
现阶段需要做数据库同步工作,目前调研了两个工具datax和kettle 这两者各有优缺点,基本的就不总结了。现在说说一些关键点: 基本方面: 1.datax适合做数据同步工作;kettle适合数据清洗,转换工作 目前成型的可视化界面,datax推荐datax web,kettle后期维护用的界面推荐 ...
分类:
其他好文 时间:
2020-07-01 12:14:39
阅读次数:
421
1、 处理重复数据drop_duplicates函数 #设定一些重复行数据 df.iloc[1] = [0,0,0,0,0,0,0,0] df.iloc[3] = [0,0,0,0,0,0,0,0] df.iloc[5] = [0,0,0,0,0,0,0,0] df.iloc[7] = [0,0,0 ...
分类:
编程语言 时间:
2020-06-29 17:08:43
阅读次数:
72
效果图: 这里给出了第一一个图的例子JS代码: 1 $(function () { var qxarr = new Array(7);//清洗数据5 var maxarr = new Array(7);//最优区间最大值 var minarr = new Array(7);//最优区间最小值 //三 ...
分类:
Web程序 时间:
2020-06-28 15:05:25
阅读次数:
189
一. 数据清洗主要工作 ? 噪声(Noise)消除 ? 噪声包含错误值(类别型字段)及离群值(数值型字段) ? 噪声使探勘结果有相当大的偏差,必须将噪声移除或将其做适当的处理 2. 空值(Missing Value)填补 ? 人工填补? 自动填补 二.噪声如何处理 噪声侦测方法 ? 针对类别型字段, ...
分类:
其他好文 时间:
2020-06-27 19:56:43
阅读次数:
253
需求:采集8类日志数据,并且进入es展示: 方案制定:目前数据采集通用flume+kafka模式,所以采用原有模式,一类服务进入一个topic,然后通过logstash进行数据清洗,最后进入es进行展示。 flume采用tadir 读取数据源,memory 进行缓存,kafka进行sink a1.s ...
分类:
Web程序 时间:
2020-06-26 22:29:32
阅读次数:
81
DWD(Data Warehouse Detail):数据明细层,结构和粒度与原始表保持一致,对ODS层数据进行清洗(取出空值、脏数据、超过极限范围的数据)。 DWD层的数据来源于ODS原始数据层,在原始数据层的Hive表里,只有一个字段,存储了原始的一条条日志信息,下面以事件(如商品点击事件,展示 ...
分类:
其他好文 时间:
2020-06-26 01:33:52
阅读次数:
262