拿到数据之后,我们应该怎么做? 直接套用各种图表公式进行分析并不是一个好做法。因为众多分析思路和公式都是基于数据服从一定分布的前提,如果不了解数据质量和分布情况,做推断分析是事倍功半的。 正确的处理方法是先使用描述统计。 描述统计学 描述统计学是一种概括数据集的方式,包括数据的加工和显示,数据集的分 ...
分类:
其他好文 时间:
2019-02-20 09:30:43
阅读次数:
217
1. 数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理,数据科学的知识体系 数据预处理:为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理——进 ...
分类:
其他好文 时间:
2019-01-20 12:01:58
阅读次数:
405
摘要 1.属性和对象(attributes and objects) 2.数据集类型(types of data sets) 3.数据质量(data quality) 4.数据预处理(data preprocessing) 1.属性和对象 属性和对象构成了数据,在完成一个数据挖掘任务时, 数据(da ...
分类:
其他好文 时间:
2019-01-19 13:51:29
阅读次数:
242
数据挖掘概要 四个步骤,数据探索,数据预处理,挖掘建模,模型评价 数据探索 数据探索 数据质量分析 缺失值 数据特征分析 数据预处理 挖掘建模 模型评价 ...
分类:
编程语言 时间:
2019-01-15 14:14:40
阅读次数:
152
场景 网上有很多推荐DB2的连接软件工具,但是因为DB2的使用场景不多,这次是在做数据资产管理的数据质量分析时使用到,在做数据交换时要在DB2中建表并同步数据,所以,需要测试数据库,其实DB2数据关系型数据库,和mysql很相似,idea不需要安装配置之类的,很方便使用; 连接 1.打开idea,最 ...
分类:
数据库 时间:
2019-01-08 19:26:13
阅读次数:
2166
1.数仓建模的目标 访问性能:能够快速查询所需的数据,减少数据I/O数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本使用效率:改善用户应用体验,提高使用数据的效率数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量的、一致的数据访问平台 ...
分类:
其他好文 时间:
2019-01-04 10:34:11
阅读次数:
176
get_k_data 接口文档 全新的免费行情数据接口 原创: Jimmy 挖地兔 2016-11-06 前言在tushareAPI里,曾经被用户喜欢和作为典范使用的API get_hist_data,经历了数据的一些些缺失和一丢丢错误之后,在用户们的齐声呼“换”之下,终于要变成tushare中的一 ...
分类:
其他好文 时间:
2018-12-27 15:16:01
阅读次数:
981
项目背景: 现在是一名大三生,在早早的为实习做准备。一直向往着互联网之都—杭州,实习也准备投往杭州。到了杭州肯定得租房 住,那么许多租房的问题也接踵而至:房租贵、位置偏、房屋旧、房东一言不合就涨租等问题,且也经常听学长抱怨:“早知道 公司附近租房这么贵,当初谈薪资的时候就报个更高的价格 ...
分类:
其他好文 时间:
2018-12-17 21:06:36
阅读次数:
216
转自接地气的陈老师 系列1 本篇是陈老师《数据分析师的日常》系列连载第一篇。本篇给各种有兴趣的、好奇的、想学习、想转行的门外汉,做的有关数据分析师的科普简介,有兴趣的同学请传阅,业内各位老炮儿看了随意吐槽 数据分析师干什么的 问:你们叫数据分析师? 答:额,其实还有其他名字,比如有些公司喜欢加个“大 ...
分类:
其他好文 时间:
2018-12-16 16:37:38
阅读次数:
181
16.SQL Mode及相关问题SQL Mode定义了Mysql支持的SQL语法和数据校验级别,Mysql支持多种SQL Mode。用途: 设置不同的SQL Mode可以对数据进行不同严格程度的校验,即在不同应用环境提供不同的数据质量; 设置不同的SQL Mode可以方便数据迁移至目标数据库; AN ...
分类:
数据库 时间:
2018-12-15 15:51:28
阅读次数:
251