Python中的pandas模块进行数据分析。 接下来pandas介绍中将学习到如下8块内容: 1、数据结构简介:DataFrame和Series 2、数据索引index 3、利用pandas查询数据 4、利用pandas的DataFrames进行统计分析 5、利用pandas实现SQL操作 6、利 ...
分类:
编程语言 时间:
2018-10-10 15:28:45
阅读次数:
196
IP相关统计 统计IP访问量 查看某一时间段的IP访问量(4-5点) 查看访问最频繁的前100个IP 查看访问100次以上的IP 查询某个IP的详细访问情况,按访问频率排序 页面访问统计 查看访问最频的页面(TOP100) 查看访问最频的页面([排除php页面】(TOP100) 查看页面访问次数超过 ...
分类:
数据库 时间:
2018-10-09 18:12:29
阅读次数:
253
一、kafka使用背景 1、Kafka使用背景 在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题: 这些场景都有一个共同点: 数据是由上游模块产生,上游模块,使用上游模块的数据计算、统计、分析,这个时候就可以使用消息系统,尤其是分布式消息系统! 2、Kafka的定义 Wha ...
分类:
其他好文 时间:
2018-10-09 00:43:00
阅读次数:
164
R是目前最流行的高级编程语言之一,被广泛用于统计分析和数据可视化。R是开源的,有非常活跃的社区来支撑。 想要了解更多有关R信息,可访问R的主页:https://www.r-project.org/。 RStudio是R的一个集成开发环境(IDE)。使用它的话,R编程的学习和实践会更加轻松和方便。 下 ...
分类:
编程语言 时间:
2018-09-28 10:55:53
阅读次数:
225
数据挖掘流程: (一)数据读取: 读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成任务 (二)特征理解分析 单特征分析,逐个变量分析其对结果的影响 多变量统计分析,综合考虑多种情况影响 统计绘图得出结论 (三)数据清洗与预处理 对缺失值进行填充 特征标准化/归一化 筛选有价值的特征 分析 ...
分类:
其他好文 时间:
2018-09-27 00:12:50
阅读次数:
202
1. 聚类分析 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术 >> 将观测对象的群体按照相似性和相异性进行不同群组的划分,划分后每个群组内部各对象相似度很高,而不同群组之间的对象彼此相异度很高。 *** 回归、分类、聚类的区别 : ...
分类:
其他好文 时间:
2018-09-20 01:13:09
阅读次数:
280
1.回归分析 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间互相依赖的定量关系的一种统计分析方法。 按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 2.线性回归的python实现 线性回归的python实现方法 线性回归通常是人们 ...
分类:
其他好文 时间:
2018-09-19 23:37:13
阅读次数:
559
1、Kafka是一种高吞吐量的分布式发布订阅消息系统; 应用场景: (1) kafka可以作为"网站活性跟踪"的最佳工具;可以将网页/用户操作等信息发送到kafka中.并实时监控,或者离线统计分析等; (2) Kafka通常被用于可操作的监控数据。这包括从分布式应用程序来的聚合统计用来生产集中的运营 ...
分类:
其他好文 时间:
2018-09-17 20:37:10
阅读次数:
1138
几个基础分析思路: 分布分析、对比分析、统计分析、帕累托分析、正态性检测、相关性分析 分布分析 分布分析是研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量。 如果有底图就可以把它的位置给分布出来;点越大代表房屋的单价越高,颜色越深代表总价越高; 通过数据可见,一共8个字段 定量字段: ...
分类:
其他好文 时间:
2018-09-17 00:32:50
阅读次数:
279
通过一个电视收视率项目实战驱动讲解,项目案例是国内的一家广电企业作为非洲国家的一个运营商,以用户收视行为数据作为基础数据,通过对频道和节目的分析,采用多维度统计分析的方法挖掘用户的收视行为特征。 通过此案例可以学习大数据整体开发流程,课程是围绕一个大数据整理流程而做的教学课程,让大家明白大数据不同技 ...
分类:
其他好文 时间:
2018-09-08 22:33:18
阅读次数:
161