为什么R有时候运行慢? 参考https://www.cnblogs.com/qiaoyihang/p/7779144.html 一、为什么R程序有时候会很慢? 1、计算性能的三个限制条件 cpu ram io R代码本身(个人觉得能控制的是R代码书写的高效 2、R是运行时解释的 在运行时解释并执行R ...
分类:
其他好文 时间:
2019-12-10 22:37:19
阅读次数:
95
04 数据降维 降维: 降低特征的数量 特征选择 主成分分析 特征选择: 特征选择的原因 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对计算结构有影响 特征选择是什么? 1. 定义: 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可 ...
分类:
其他好文 时间:
2019-11-10 19:31:03
阅读次数:
124
当集群容量或者计算资源达到一定限定时,就需要对集群进行扩容,扩容操作主要可以分为两种:1、纵向扩展:向已有节点中添加磁盘,容量增加,集群计算性能不变;2、横向扩展:添加新的节点,包括磁盘、内存、cpu资源,可以达到扩容性能提升的效果;一、在生产环境中避免新增节点影响性能,添加标识位生产环境中,一般不会在新节点加入ceph集群后,立即开始数据回填,这样会影响集群性能。所以我们需要设置一些标志位,来完
分类:
其他好文 时间:
2019-09-21 01:11:48
阅读次数:
208
数据过滤在很多场景都会应用到,特别是在大数据环境下。在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的。很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性能和计算性能可以达到几何级别的提升。很多第三方框架也实现了相应的功能,比如hbase框架实现的布隆过 ...
分类:
其他好文 时间:
2019-06-30 14:02:23
阅读次数:
134
NumPy是一个优秀的科学计算库,提供了很多实用的数学函数、强大的多维数组对象和优异的计算性能,不仅可以取代Matlab和Mathematica的许多功能,而且业已成为Python科学计算生态系统的重要组成部分。但与这些商业产品不同,它是免费的开源软件。推荐学习《Python数据分析基础教程NumP ...
分类:
编程语言 时间:
2019-06-04 19:35:13
阅读次数:
106
DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。 从上面的图中可以看出DataFrame和RDD的区别。RDD是分布式的 Jav ...
分类:
其他好文 时间:
2019-04-13 11:01:32
阅读次数:
108
从技术角度看现代社会的运行本质 区块链的本质 本质:数据管理+数据控制(收集数据+存储数据+管理数据+提取数据+分析数据+使用数据) 收集数据:各大应用 存储数据:数据中心,各种链(以太坊,eos等) 管理数据:节点治理 提取数据:各种链的数据计算性能 分析数据:从链上获取数据,线下用sql工具、人 ...
分类:
其他好文 时间:
2019-03-05 11:35:45
阅读次数:
234
性能测试 并发用户 并发用户数 大家都知道我们的性能测试就通过工具模拟多用户对系统进行操作,对系统造成压力,来验证系统的性能(不太标准的解释)。好多人也简单的把性能测试当成并发测试。那么这个“多用户”和“同时”两个因素缺一不可。只多用户不同时,很难对系统构成压力;没有多个用户,同时的概念也就自然不存 ...
分类:
其他好文 时间:
2019-01-21 12:16:45
阅读次数:
199
科学计算碰到数据量很大的时候,往往非常消耗时间。使用多核进行并行计算是加快计算速度的主要方法,而显卡天生具有成百上千个计算核心,所以使用 GPU 进行计算也就越来越流行。得益于 Nvidia 提供的 CUDA,我们编写利用 GPU 进行计算的程序越来越方便。那么,在 Linux 系统下,使用 CUD... ...
分类:
系统相关 时间:
2019-01-14 20:20:48
阅读次数:
306
本文由云+社区发表 做为大数据生态系统中最重要的底层存储文件系统HDFS,为了保证系统的可靠性,HDFS通过多副本的冗余来防止数据的丢失。通常,HDFS中每一份数据都设置两个副本,这也使得存储利用率仅为1/3,每TB数据都需要占用3TB的存储空间。随着数据量的增长,复制的代价也变得越来越明显:传统的 ...
分类:
其他好文 时间:
2019-01-08 15:06:49
阅读次数:
150