我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,企业邮箱服务也面临着大数据处理,海量数据处理的三个主要因素:大容量数据、多格式数据和速度。DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。...
分类:
其他好文 时间:
2014-06-05 01:54:15
阅读次数:
220
最近在给客户整一个财务报表,用的nopi生成excel,客户那每个月的数据大概有30W条,生成的excel约200张,在我们公司服务器上跑起来妥妥的,到客户的服务器上就完蛋了,跑着跑着就崩溃掉了,无力吐槽,万万没想到啊。总之又加了好几天班才解决问题。大概如下,望各位童鞋注意1.查询所需要处理的数据尽...
分类:
其他好文 时间:
2014-06-01 11:36:46
阅读次数:
283
思路:1、排序,取前k个元素;O(NlogN);2、分治,O(n),利用快排的思想;3、用set 维护最小的k个数,O(NlogK),可处理海量数据。...
分类:
其他好文 时间:
2014-05-26 03:38:58
阅读次数:
222
Hadoop 的优势
Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分 布 式 计 算 平 台。 用 户 可 以 轻 松 地 在Hadoop 上开发运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
2.高扩展性。Hadoop 是在可用的计算机集簇间分配数据完成计算任务的, 这些集簇可以方便地...
分类:
其他好文 时间:
2014-05-22 12:26:27
阅读次数:
217
输入n个数,找出其中最小的k个数。例如输入4,5,1,6,2,7,3,8
这8个数,则最小的4个数是1,2,3,4.解法一:O(n)的算法,只有当我们可以修改输入数组时可用解法二:O(nlogk)的算法,特别适合处理海量数据
分类:
其他好文 时间:
2014-05-11 12:58:51
阅读次数:
242
一、 概念知识介绍
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行 处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。
Hadoop MapReduce基于“分而治之”的思想,将计算任务...
分类:
其他好文 时间:
2014-05-10 04:39:09
阅读次数:
570