越来越多的企业用内容管理系统来管理电子发票,电子文档,人力资源等结构化或非结构化数据内容,而且把这些业务外包到第三方的 IT 公司。外包公司的更换,或者现有内容管理系统不能满足业务增长,性能,兼容性等方面的需要,企业计划采用业务管理,性能以及兼容性更好的系统。 还有的企业目前根本没有采用内容管理系统...
分类:
其他好文 时间:
2014-07-10 00:42:32
阅读次数:
440
一. 介绍 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的.....
分类:
其他好文 时间:
2014-06-29 19:20:17
阅读次数:
252
数据库设计是整个程序的重点之一,为了支持相关程序运行,最佳的数据库设计往往不可能一蹴而就,只能反复探寻并逐步求精,这是一个复杂的过程,也是规划和结构化数据库中的数据对象以及这些数据对象之间关系的过程。下面给出了20个数据库设计最佳实践,当然,所谓最佳,还是要看它是否适合你的程序。一起来了解了解吧.....
分类:
数据库 时间:
2014-06-29 18:56:42
阅读次数:
203
垂直搜索引擎研发经验总结
什么是垂直搜索引擎?
垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所需要的数据,再进行二次处理和索引,最后根据用户提交的请求,返回搜索结果。
与普通的网页搜索引擎相比,它们最大的区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结...
分类:
其他好文 时间:
2014-06-26 07:38:14
阅读次数:
294
数据是当今企业的核心,能够提高企业的灵活性和决策水平。但数据(包括结构化和非结构化数据)的爆炸式增长加大了数据保护和存储的难度。 现在的企业每天需要处理大型和大量的文件,严酷的现实给企业的IT资源带来巨大的压力。例如,通过一条10GB连接备份一个84TB的数据集需要花费24小时的时间,而且期间...
分类:
其他好文 时间:
2014-06-25 13:45:49
阅读次数:
215
1. 什么是awkawk是Unix/Linux提供的样式扫描与处理工具,非常擅长处理结构化数据和生成表单。与sed 和grep 很相似,但功能却超过大于两者,由于awk具备各种脚本语言的特点,所以也可以把它看做一种脚本语言。本文介绍了awk的使用方法。2. awk程序设计模型awk程序由三部分组成,...
分类:
其他好文 时间:
2014-06-24 12:12:43
阅读次数:
277
使用 Apache Pig 从大数据集中获得所需的信息Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言,并在...
分类:
其他好文 时间:
2014-06-18 23:59:12
阅读次数:
305
大型B2C网站高性能可伸缩架构技术探秘2010-07-21 08:51 狂放不羁 JavaEye字号:T|T向您介绍大型B2C网站高性能的网站架构技术,包括缓存的使用、应用程序和数据库的拆分、异步通信以及非结构化数据存储等。AD:WOT2014课程推荐:实战MSA:用开源软件搭建微服务系统在《世界最...
分类:
Web程序 时间:
2014-06-15 08:31:59
阅读次数:
317
Spark1.0.0
release于2014-05-30日正式公布,标志Spark正式进入1.X的时代。Spark1.0.0带来了各种新的特性,并提供了更好的API支持;Spark1.0.0添加了Spark
SQL这一个新的重要组件,用于载入和操作Spark的结构化数据;Spark1.0....
分类:
其他好文 时间:
2014-06-06 23:26:39
阅读次数:
295
Spark1.0.0 release于2014-05-30日正式发布,标志Spark正式进入1.X的时代。Spark1.0.0带来了各种新的特性,并提供了更好的API支持;Spark1.0.0增加了Spark SQL这一个新的重要组件,用于加载和操作Spark的结构化数据;Spark1.0.0增强了现有的标准库(ML,streaming,GraphX??),同时还增强了Java和Python语言的...
分类:
其他好文 时间:
2014-06-02 15:11:10
阅读次数:
313