描述性统计分析主要包括 基本信息:样本数、总和 集中趋势:均值、中位数、众数 离散趋势:方差(标准差)、变异系数、全距(最小值、最大值)、内四分位距(25%分位数、75%分位数) 分布描述:峰度系数、偏度系数 相关R描述性统计包与函数-- 1.1、自带summary函数 myvars <- c("m ...
分类:
其他好文 时间:
2018-10-28 13:41:52
阅读次数:
393
2016年年底,曾在国内随机抽取了三百位疝气患者进行问卷调查,通过对调查结果的统计分析显示,90%以上的患者对于疝气的修复方式的认识,仅仅停留在保守治疗的基础上。近期,再次随机抽取了三百位患者进行调查,调查结果却有了较大的差异,96%的患者对于疝气修复有了新的认识:他们都认为,来自美国原装进口的疝极致,才是修复疝气最好的选择,为什么在短短的半年内调查结果发生了这么大的变化?疝极致又是什么?我们的特
分类:
其他好文 时间:
2018-10-26 20:35:20
阅读次数:
463
统计分析中经常用的awk命令,其中用的最多的还是切分 cat test | awk -F',' '{print $1,$2} 能够很好的将记录按照需要切分开, 但是如何获取最后一列呢? 可以使用awk -F',' '{print $NF}' 来获取,mark一下 ...
分类:
系统相关 时间:
2018-10-26 19:28:51
阅读次数:
903
#计算鸢尾花的花瓣长度的最大值,均值,中值,均方差 from sklearn.datasets import load_iris data=load_iris() data_length=data.data[:,2] print("最大值:",np.max(data_length),"\n","平均... ...
分类:
其他好文 时间:
2018-10-20 22:44:09
阅读次数:
235
大数据目前的主要趋势(自己理解) 文件系统、部署、各种流和开源工具 ETL开发(BI项目) 数据统计分析 数据挖掘、机器学习 图片来自 浅析 一、关于kakfa kafka相关 Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越 ...
分类:
其他好文 时间:
2018-10-17 18:32:26
阅读次数:
167
1、 实验要求: 实验报告中要求包括程序设计思想、程序流程图、源代码、运行结果截图、编译错误分析等内容。 2、实验内容: (1) 用户需求:英语的26 个字母的频率在一本小说中是如何分布的?某类型文章中常出现的单词是什么?某作家最常用的词汇是什么?《哈利波特》 中最常用的短语是什么,等等。 要求:输 ...
分类:
其他好文 时间:
2018-10-14 19:06:23
阅读次数:
220
一、项目整体概述 简述项目的背景 背景:用户行迹企业运营 分析项目的目的 通过对项目的分析,可以初步得到以下目的: ?实时掌握用户动态 ?根据实时统计结果,适度推广 ?统计分析效果,快速合理的调整 通过对项目的分析,可以初步得到以下目的: ?实时掌握用户动态 ?根据实时统计结果,适度推广 ?统计分析 ...
分类:
其他好文 时间:
2018-10-14 00:21:10
阅读次数:
114
基数估计算法简介 注1:本文是之前工作时在团队内分享的一个PPT的文字版本. 注2 :我有了新的个人博客 "地址" 下文中的sqrt表示开根号(sqrt(4)=2),m^n表示m的n次方 什么是基数(Cardinality) 基数指的是一个可重复集合中不重复元素的个数。 什么是基数计算 给定一个含有 ...
分类:
编程语言 时间:
2018-10-13 02:36:46
阅读次数:
227
Pandas是一款开放源码的BSD许可的Python库,为Python编程语言提供了高性能,易于使用的数据结构和数据分析工具。Pandas用于广泛的领域,包括金融,经济,统计,分析等学术和商业领域。 Pandas的官方网站是: http://pandas.pydata.org/ import num ...
分类:
其他好文 时间:
2018-10-13 02:33:32
阅读次数:
130
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等 2.1数据挖掘的发展历史 ..... 2.2数据分析与数据挖掘的主要区别 相对于传统的统计分析技术,数据挖掘有如下特点: 数据挖掘擅长处理大数据(几十几百万行或者更多的数据) 数据挖 ...
分类:
其他好文 时间:
2018-10-12 17:04:17
阅读次数:
123