前言: 在前一篇中,已经搭建好了Tensorflow环境,本文将介绍如何准备数据与预处理数据。 正文: 在机器学习中,数据是非常关键的一个环节,在模型训练前对数据进行准备也预处理是非常必要的。 一、数据准备: 一般分为三个步骤:数据导入,数据清洗,数据划分。 1、数据导入: 数据存放在原始格式多种多 ...
分类:
其他好文 时间:
2019-09-25 13:00:54
阅读次数:
106
《Python3 爬虫、数据清洗与可视化实战》第十一章介绍pyecharts,是基于 0.2.3版本的。 pyecharts已经更新到1.5.0版本,调用饼图所需要的参数已经不同。 安装旧版本pyecharts太费劲,所以选择使用最新版本(2019.09)的pyecharts 1.5.0, 相应地, ...
分类:
其他好文 时间:
2019-09-10 09:13:46
阅读次数:
272
使用kettle进行数据清洗: 1.新建转换去除手机销售信息表的重复记录 要求:去除该字段中的所有空格,方便后续聚合统计,字母统一大小写,去除该字段中的所有特殊字符(各种标点符号) 这里可选用排序加去重组件,也可用哈希去重。然后用字符串操作去括号,大小写统一。字符串替换的正则表达式去除特殊字符。 2 ...
分类:
其他好文 时间:
2019-09-08 09:36:01
阅读次数:
224
pandas简介:pandas包含的数据结构和数据处理工具的设计使得利用进行数据清洗和数据分析非常快捷;与numpy的区别,pandas用来处理表格型或异质型数据的,而numpy更适合处理同质型的数值类数据。 1、Series简介 1、Series是一种一维的数组型对象,包含以一个值序列,并且包含数 ...
分类:
其他好文 时间:
2019-09-01 23:31:10
阅读次数:
99
数据清洗: 1、异常值 1)基于概率分布,构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。 2)聚类,比如我们可以用KMeans聚类将训练样本分成若干个簇,如果某一个簇里的样本数很少,而且簇质心和其他所有的簇都很远,那么这个簇里面的样本极有可能是异常特征样本了。我们可 ...
分类:
其他好文 时间:
2019-09-01 15:04:45
阅读次数:
78
一、Azkaban 介绍 1.1 背景 一个完整的大数据分析系统,必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题: 如何定时调度某个任务? 如何在某个任务执行完成后再去执行另一个任务? 如何 ...
分类:
其他好文 时间:
2019-09-01 10:33:11
阅读次数:
86
一、安装 1、使用pip安装 注意:如果下载速度非常慢或者下载失败(因为python的部分生态库不支持云加速,所以安装超时),则手动下载指定的文件,并手动安装如下: 访问此链接下载.whl文件: 使用命令在此文件的目录安装此文件: 安装pandas需要的依赖库有: 官方文档:https://pand ...
分类:
其他好文 时间:
2019-08-30 19:23:30
阅读次数:
70
摘要: 异常监控不复杂也不简单啊... 原文: "前端异常监控解决方案研究" 作者:frustigor 前端监控包括行为监控、 异常监控 、性能监控等,本文主要讨论异常监控。对于前端而言,和后端处于同一个监控系统中,前端有自己的监控方案,后端也有自己等监控方案,但两者并不分离,因为一个用户在操作应用 ...
分类:
其他好文 时间:
2019-08-29 13:49:44
阅读次数:
67
1、Tableau产品介绍 安装 Tableau Desktop 10.5.3、Tableau安装包2018.3 提出问题、理解数据、清洗数据、建立模型、数据可视化 2、Tableau和Execl对比 ...
分类:
其他好文 时间:
2019-08-27 23:01:51
阅读次数:
82
在《用pandas进行数据清洗(一)(Data Analysis Pandas Data Munging/Wrangling)》中,我们介绍了数据清洗经常用到的一些pandas命令。 接下来看看这份数据的具体清洗步骤: 1,查看数据的行列数: 数据一共有10行6列。 2,查看数据的数据类型: Tra ...
分类:
其他好文 时间:
2019-08-25 16:16:39
阅读次数:
62