学习时间:2019/10/25 周五晚上22点半开始。 学习目标:Page188-Page217,共30页,目标6天学完,每天5页,预期1029学完。 实际反馈:X集中学习1.5小时,学习6页。实际XXX学完,耗时N天,M小时 数据准备工作:加载、清理、转换以及重塑,通常会占用分析师80%的时间或更 ...
分类:
编程语言 时间:
2019-10-25 23:17:26
阅读次数:
111
1.1 产品特性 UniEAP DataQuality(以下简称DataQuality)是UniEAP最新推出的数据质量管理平台。基于数据监控服务、数据质量校验引擎、数据清洗引擎以及面向服务数据质量架构实现了数据质量管理平台,产品关键特性主要有: 通过图形化的页面支持所有主流数据库的数据质量校验,校 ...
分类:
其他好文 时间:
2019-10-24 15:10:54
阅读次数:
120
import pandas as pdimport seaborn as snsimport geohashimport matplotlib.pyplot as pltfrom math import radians,cos,sin,asin,sqrt%matplotlib inline trai ...
分类:
其他好文 时间:
2019-10-18 15:47:39
阅读次数:
130
一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。 titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活Pclass:乘客所持票类,有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的 ...
分类:
其他好文 时间:
2019-10-17 13:44:14
阅读次数:
83
探索一的内容,选取部分数据进行数据清洗,建立模型,并检验模型的评估效果. https://nbviewer.jupyter.org/github/donggu26/python/blob/master/%E6%B3%B0%E5%9D%A6%E5%B0%BC%E5%85%8B%E5%8F%B7%E6% ...
分类:
其他好文 时间:
2019-10-11 10:40:32
阅读次数:
76
数据分析流程 一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目。按照这个流程,每个部分需要掌握的细分知识点如下: 数据获取:公开数据、Python爬虫 外部数据的获取方式主要有以下两种。 第一种是获取外部的公开数据集,一些科研机构、企业、 ...
分类:
编程语言 时间:
2019-10-09 15:18:08
阅读次数:
86
一、分别配置SQL Server和oracle数据库的连接信息并测试连接。 二、新增数据同步任务,配置规则,运行任务,查看日志。 支持数据自动定时抽取,转换,汇聚同步。支持一对多,多对一,多对多等数据同步场景。支持多表级联,数据转换,数据清洗,数据脱敏等需求。 数据源、同步目标、抽取规则、调度计划直 ...
分类:
数据库 时间:
2019-10-07 11:22:15
阅读次数:
117
pandas库,含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas是基于NumPy数组构建。 pandas常结合数值计算工具NumPy和SciPy、分析库statsmodels和scikitlearn,和可视化库matplotlib等工具一同使用。 5.1 pandas数据结构 ...
分类:
编程语言 时间:
2019-10-07 00:31:44
阅读次数:
88
数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘 数值类数据 缺失值 在处理缺失值之前,首先要理解为什么数据会有缺失。 丢弃 直接丢弃含有缺失值的行或者列 适用情况 1. 错误导致的数据缺失(GSP中跑步速度的缺失) 2. 要建模预测的数据列有数据缺失 3. 无用数据(调查车辆的价格,要排除 ...
分类:
其他好文 时间:
2019-09-30 21:47:37
阅读次数:
107