中国气象局公共服务中心与阿里云达成战略合作
5 月 27 日上午消息,中国气象局公共气象服务中心与阿里云达成战略合作,共同挖掘气象大数据的深层价值。海量气象数据将通过阿里云计算平台,变成可实时分析应用的“活数据”,服务国民经济和社会民生。这是国家部委首次采用民营科技公司提供的云计算和大数据服务。
目前,我国每年新增的气象数据达到 PB 量级(1PB=1024TB,1TB=1024GB)...
分类:
其他好文 时间:
2014-06-05 03:07:37
阅读次数:
329
准备开题报告了,先要熟悉一下领域范围,《集体智慧编程》参考一下论点。简单的思路是看一下哪个话题最热门,用google学术来衡量一下论文数,虽然不够精确但是足以反应一点什么。
当然是选择最近比较热门的,同时参考一下国内的论文数目情况。
关键字
总的
2014
国内总数
2014
推荐
2,480,000
...
分类:
其他好文 时间:
2014-06-05 01:59:36
阅读次数:
241
我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,企业邮箱服务也面临着大数据处理,海量数据处理的三个主要因素:大容量数据、多格式数据和速度。DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。...
分类:
其他好文 时间:
2014-06-05 01:54:15
阅读次数:
220
最近论文实验进行的非常的不顺利,一方面是实验聚类的效果十分的差,另一方面是做大数据的实验对计算机的性能要求很高,非常的耗费内存,每当矩阵的维度大于3000的时候,整个计算机就像中了魔法似的,像蜗牛一样慢。这样用小数据做实验效果非常的差,用大数据做实验计算机又跑不动,搞的自己很愚昧,不知道是自己数据集的问题,还是聚类算法的问题。...
分类:
其他好文 时间:
2014-06-03 05:54:21
阅读次数:
263
前言
今天Spark终于跨出了里程碑的一步,1.0.0版本的发布标志着Spark已经进入1.0时代。1.0.0版本不仅加入了很多新特性,并且提供了更好的API支持。Spark SQL作为一个新的组件加入,支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大程度上的增强,对Spark和Python的接口也变得更稳定。以下是几个主要的改进点...
分类:
其他好文 时间:
2014-06-03 00:43:41
阅读次数:
269
阿里巴巴集团总参谋长曾鸣
大数据最重要的特征不在大小,而在死活。就企业而言,数据的死活决定一切,从数据的管理到数据的运用,数据必须能活起来,开始跑通迭代,才能产生持续价值。
互联网将快速颠覆众多的传统行业。这两年,这样的话听多了,多少有些“狼来了”,让人逐渐麻木。可是,不经意间,出租车这个再传统不过的行业,一夜间就发生了巨大的变化,互联网究竟怎样细致而深刻地改变世界,逐渐清晰地展现在了...
分类:
其他好文 时间:
2014-06-03 00:15:27
阅读次数:
326
http://zhangsa.net/baike/hulianwangsiwei.html互联网思维精髓大总结:1、用户思维;2、简约思维;3、极致思维;4、迭代思维;5、流量思维;6、社会化思维;7、大数据思维;8、平台思维;9、跨界思维。课前秀:三个段子第一个段子:一个毫无餐饮行业经验的人开了一...
分类:
其他好文 时间:
2014-06-02 07:55:24
阅读次数:
278
本节讲的是并查集的第一种实现方法,这种方法查找操作开销很小而合并操作开销比较大。
数据结构
假设有N个节点,那么该算法的数据结构就是一个包含N个整数的数组id[]。
判断操作
判断节点p和节点q是否相连就是判断id[p]和id[q]的值是否一致。
合并操作
合并节点p和节点q就是将id数组中所有的id[...
分类:
其他好文 时间:
2014-06-01 14:55:21
阅读次数:
202
本节讲的是并查集的另外一种实现方法。这种方法的合并操作开销很小,但是查找操作开销很大。
数据结构
这种算法的数据结构和快速查找方法的数据结构是一样的,也是N个整数组成的数组。
数组中每个元素id[i]的含义是指i的上级是id[i]。
根节点
一个节点的根节点就是id[id[id[...id[i]....]]],一直循...
分类:
其他好文 时间:
2014-06-01 14:52:52
阅读次数:
225
前言:例行公事,有些人可能不太了解elasticsearch,下面搜了一段,大家瞅一眼。Elasticsearch是一款分布式搜索引擎,支持在大数据环境中进行实时数据分析。它基于ApacheLucene文本搜索引擎,内部功能通过ReSTAPI暴露给外部。除了通过HTTP直接访问Elasticsearch,还可以通过支..
分类:
编程语言 时间:
2014-06-01 13:47:42
阅读次数:
328