最近我看到了一个非常好的信息,里面的几句话伴随着几个数字就把列存储(Column-based Storage)讲清楚。牛啊!最喜欢的就是这个很容易理解就会放亮清晰的白色背景。而不是谈论啰嗦的概念。1 根据列存储为什么列存储(Columnar or column-based)是相对于传统关系型数据库的...
分类:
其他好文 时间:
2015-07-03 18:45:00
阅读次数:
461
Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源(包括 Hadoop 和各类文件)和在线数据源(如 Kafka)中攫取数据进行分析。Pinot 被设计是可以进行水平扩展的。...
分类:
其他好文 时间:
2015-07-03 17:35:04
阅读次数:
284
简介HBase(Hadoop Database)是一个多版本,高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase利用Hadoop HDFS作为其文件存储系统。提供高可靠,高性能,列存储,可伸缩 ,实时读写,适用于非结构化数据存储的数据库系统。
HBase利用Hadoop MapReduce来处理HBase中的...
分类:
其他好文 时间:
2015-06-17 23:27:29
阅读次数:
407
简介 ????????Apache Parquet 是一个列存储格式,主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析(OLAP)项目Impala中使用该格式作为列存储。 ?????...
分类:
其他好文 时间:
2015-06-17 11:45:57
阅读次数:
159
blas中函数参数实在是太多,想要愉快的使用最好还是封装下一个矩阵相乘dgemm_函数就要13个参数.......fortran中是按列存储的矩阵,而c++中是按行存储的,虽然与cblas可以选择按什么方式存储,但就是不想用/******************///a 4行2列//b 2行3列//...
分类:
其他好文 时间:
2015-06-15 23:48:54
阅读次数:
694
哈希表(HashTable)也叫散列表,是根据关键码值(KeyValue)而直接进行访问的数据结构。它通过把关键码值映射到哈希表中的一个位置来访问记录,以加快查找的速度。这个映射函数就叫做散列函数,存放记录的数组叫做散列表。
散列存储的基本思路就是以数据中每个元素的关键字K为自变量,通过散列函数H(k)计算出函数值,以该函数值作为一块连续存储空间的的单元地址,将该元素存储到函数值对应的单元中。
...
分类:
其他好文 时间:
2015-05-27 10:14:07
阅读次数:
123
首先创建两个队列,queue队列存储要爬的网址,out_queue存储的是要取内容的网页源代码。
创建线程类,ThreadUrl的作用是从给定的网址上抓取网页内容,并将内容存储在out_queue队列上,而DatamineThread的作用是从网页源代码中通过正则来取想要的内容。
这个代码在window下运行的话就需要将.decode('utf8')那句话前面的#删除就ok了,编码方式需要改一...
分类:
编程语言 时间:
2015-05-07 10:35:30
阅读次数:
209
1.数据类型是指列,存储过程参数,表达式和局部变量的数据特征,它决定了数据的存储格式,代表了不同的信息类型。
2.存储范围越大其占用的空间越大
3.整型的数据类型(按照存储容量有小到大排列):TINTINT,SMALLINT,MEDIUMINT,INT,BIGINT
4.浮点型:FLOAT[(M,D)]:M是数字的总位数,D是小数点后面的位数。如果M和D被省略,则根据硬件允许的限制来保存值。...
分类:
数据库 时间:
2015-05-05 08:58:10
阅读次数:
189
有这样一道题,要求使用纯mysql实现一个TF-IDF算法。原始的输入是一个有articles表,有100列,每列存储一个单词。其实核心难点就是怎么遍历对比这100个词和指定词比如'apple'进行对比。首先蛮力穷举所有的列名,如word1 、word2。。。但是这样做代码肯定丑的不像样,而且如果是...
分类:
数据库 时间:
2015-05-04 21:53:48
阅读次数:
173