数据分析绝对绕不过的三个包是numpy、scipy和pandas。numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。scipy是基于numpy的科学计算包,包括统计、线性代数等工具。pandas是基于numpy的数据分析工具,能更方便的操作大型数据集。后续的章节主要 ...
分类:
其他好文 时间:
2019-12-01 13:40:20
阅读次数:
103
数据分析是在当今每个企业都所需要涉及的一门学科,数据分析的书随便一搜就会有太多教大家如何的去使用。大致能把搜到的书分为两类:第一类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分我们所购买的书基本都是某一类工具如何使用去进行数据分析,但是看完过后还是不太懂什么是数据分析,应用到实际 ...
分类:
其他好文 时间:
2019-11-23 22:17:31
阅读次数:
85
据IDC报告,到2020年我国数据量将达到8.6ZB(8.6万亿GB),庞大的数据量也为数据部门带来巨大的挑战,如何进行数据分析,让数据不再一些冷冰冰的数据,而是可以指导企业决策层和业务部门智能决策的利器。互联网以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,中国正在成为真正的数据资源大国。其实,不仅仅一个企业需要庞大的数据分析能力。现在,实际上是
分类:
其他好文 时间:
2019-11-22 20:57:48
阅读次数:
132
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
Web程序 时间:
2019-10-28 16:16:23
阅读次数:
116
.NET for Apache® Spark? 开源大数据分析工具: 1、官方文档: https://dotnet.microsoft.com/apps/data/spark 2、介绍:https://devblogs.microsoft.com/dotnet/introducing-net-for ...
分类:
Web程序 时间:
2019-10-06 13:07:01
阅读次数:
114
[TOC] 一、pandas模块 pandas 是BSD许可的开源库,为 "Python" 编程语言提供了高性能,易于使用的数据结构和数据分析工具。 " " pandas模块:操作excel/json/sql/ini/csv(配置文件) 使用pandas处理Excel文件需要根据报错内容安装两个插件 ...
分类:
其他好文 时间:
2019-10-02 16:35:26
阅读次数:
76
Pandas是一个基于NumPy的库,为python提供了易用的数据结构和数据分析工具。 导入 Pandas数据结构 Series 一维的有标签的数组,可以容纳任何类型的数据。 DataFrame 二维的有标签的数据结构,每一列都可能有不同的类型 筛选数据 丢弃数据 排序 获取数据的信息 基础信息 ...
分类:
其他好文 时间:
2019-09-29 22:08:44
阅读次数:
160
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
Web程序 时间:
2019-09-16 16:05:57
阅读次数:
119
SPSS是一款数据统计与数据分析工具,操作简单属于数据分析的入门工具。 想要灵活使用SPSS,需要掌握两个方面内容:数据分析相关知识、SPSS操作 1 数据分析 在使用数据分析工具之前,首先要了解数据分析的思路,有的人刚拿到数据就迫不及待的把数据一股脑丢进SPSS里,然后才发现自己什么都不会,不知道 ...
分类:
其他好文 时间:
2019-09-11 20:16:40
阅读次数:
146
简单收集了以下开源dashboard 的项目,记录下 plotly-dash 基于python 的dash 开发工具,很不错 项目地址 https://github.com/plotly/dash keen-dashboards 一个响应式dashboard 开发模版 项目地址 https://gi ...
分类:
其他好文 时间:
2019-08-21 09:29:48
阅读次数:
1118