官网http://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html
分类:
其他好文 时间:
2018-03-26 10:57:40
阅读次数:
125
da array: 一个快速而灵活的同构多维大数据集容器,可以利用这种数组对整块的数据进行一些数学运算 数据指针,系统内存的一部分 数据类型 data type/dtype 指示数据大小的元组 stride: strides中保存的是当每个轴的下标增加1时,数据存储区中的指针所增加的字节数 In [ ...
分类:
编程语言 时间:
2018-03-02 22:05:32
阅读次数:
289
项目将近尾声,上线一切顺利,在开发过程中遇到了不少的问题,趁着空闲时间对项目中遇到的常见问题做一个总结,当作一个笔记,问题如下: 出现这种情况大多是结点断了,没有连接上。检查配置,重新启动服务即可。 2. java.lang.OutOfMemoryError: Java heap space 出现这 ...
分类:
其他好文 时间:
2018-02-20 19:02:45
阅读次数:
1137
HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍节点故障也是一个很大的挑战 ...
分类:
其他好文 时间:
2018-01-24 22:30:04
阅读次数:
355
(一)连接 连接通常来自Web服务器,下面列出了一些与连接有关的参数,以及该如何设置它们。 1、max_connections 这是Web服务器允许的最大连接数,记住每个连接都要使用会话内存(关于会话内存,文章后面有涉及)。 2、max_packet_allowed 最大数据包大小,通常等于你需要在一个大块中返回的最大数据集的大小,如果你在使用远程
分类:
数据库 时间:
2018-01-14 16:43:53
阅读次数:
200
1、HDFS? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来
分类:
其他好文 时间:
2018-01-13 20:45:15
阅读次数:
150
Hadoop Yarn解析: 1. Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn,我们可以在同一个大数据集群上同时运行多个计算框架。例如:Spark、MapReduce、Storm等 2. Yarn基本工作流程: 注意:Container要向No ...
分类:
其他好文 时间:
2017-12-14 22:08:39
阅读次数:
110
Numpy最重要的一个特点就是其N维数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器,是一个通用的同构数据多维容器,也就是说,其中的所有元素必须是相同类型的。 创建数组最简单的方法就是array函数,它接受一切序列型的对象(包括其他数组),然后产生一个新的含有传入数据的Numpy数 ...
分类:
其他好文 时间:
2017-11-20 20:16:02
阅读次数:
179
一、MapReduce中有哪些常见算法 (1)经典之王:单词计数 这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 ...
分类:
编程语言 时间:
2017-11-03 12:50:26
阅读次数:
248
1. 优化原则:小表驱动大表,即小数据集驱动大数据集。 当B表的数据集必须小于A的数据集时,用in优于exists。 当A表的数据集系小于B表的数据集时,用exists优于in。 注意:A表于B表的ID字段上应建立索引。 2. exists ...
分类:
其他好文 时间:
2017-10-10 19:03:55
阅读次数:
111