大数据概念
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,...
分类:
其他好文 时间:
2014-11-22 09:22:45
阅读次数:
232
什么是图层图层是用来在 ArcGIS 产品套件中显示地理数据集的机制。每个图层代表一种数据集(可以是地图服务、图形或是矢量数据),并指定该数据集是如何描绘使用一组属性的。包含一个地图控件的每个应用程序是通过添加一系列图层组装的。图层以特定的顺序显示在地图上,列在最底部的图层在地图的最上面显示,也就是...
分类:
其他好文 时间:
2014-11-21 12:08:10
阅读次数:
182
数据库的特点:海量存储数据,数据检索非常方便。保持数据信息的一致、完整,病实现数据的共享和安全。通过组合分析,产生新的有用信息。数据库概念的具体化:是由大量数据、表间关系、以及各种数据操作对象组合的一个数据集合。它不是一个简单的数据组合场所。DBMS的概念:是一个由用户使用的数据库管理软件,目的就是...
分类:
数据库 时间:
2014-11-21 09:04:01
阅读次数:
217
转自:http://blog.csdn.net/lantian0802/article/details/383334791.基础概念:(1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练...
分类:
编程语言 时间:
2014-11-20 20:22:41
阅读次数:
335
hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。
弹性分布式数据集(RDD)获得方式:1
并行化驱动程序内的集合; 2
从外部数据集加载。
1 并行化驱动程序内的集合code demo
val d...
分类:
其他好文 时间:
2014-11-20 12:05:17
阅读次数:
296
DATASNAP中间件:中间件已经在好几个实际项目中应用,长时间运行异常稳定,可无人值守;可编译环境:DELPHI XE5~DELPHI XE7,无需变动代码;支持传统TCP/IP方式也支持REST;传统TCP/IP客户端支持长连接也支持短连接;数据库连接对象,中间件服务对象,数据集对象等对象全部采...
业界领先的实时数据集成工具GoldenGate现在可以帮助企业在传统数据库和云平台、大数据平台之间进行实时复制。新的OGG 12c支持更多的异构数据库和大数据平台,进一步提升可管理性和对混合云的支持。主要新特性如下:一个新的streams迁移工具: Streams2OGG,帮助streams用户迁....
分类:
其他好文 时间:
2014-11-19 12:31:10
阅读次数:
230
在线拍卖网站eBay开源了其名为Kylin的数据库技术,该公司表示这套方案能够对保存在Hadoop当中的PB级数据集进行快速查询。与谷歌以 及Facebook等企业相比,eBay并不能算是大数据用户,但该公司确实也在以相当可观的规模运行着Hadoop等技术方案,而Kylin项目似乎正 是其以此为基础...
分类:
数据库 时间:
2014-11-19 12:11:17
阅读次数:
301
本文主要内容包括: (1) 介绍神经网络基本原理,(2) AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/w.....
分类:
其他好文 时间:
2014-11-19 10:39:22
阅读次数:
285
贝叶斯的应用过滤垃圾邮件贝叶斯分类器的著名的应用就是垃圾邮件过滤了,这方面推荐想详细了解的可以去看看《黑客与画家》或是《数学之美》中对应的章节,贝叶斯的基础实现看这里数据集两个文件夹,分别是正常邮件和垃圾邮件,其中各有25封邮件测试方法从50封邮件中随机选取10封做为测试数据实现细节1.首先我们需要...
分类:
编程语言 时间:
2014-11-19 07:10:16
阅读次数:
371