越来越多的企业用内容管理系统来管理电子发票,电子文档,人力资源等结构化或非结构化数据内容,而且把这些业务外包到第三方的 IT 公司。外包公司的更换,或者现有内容管理系统不能满足业务增长,性能,兼容性等方面的需要,企业计划采用业务管理,性能以及兼容性更好的系统。 还有的企业目前根本没有采用内容管理系统...
分类:
其他好文 时间:
2014-07-10 00:42:32
阅读次数:
440
垂直搜索引擎研发经验总结
什么是垂直搜索引擎?
垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所需要的数据,再进行二次处理和索引,最后根据用户提交的请求,返回搜索结果。
与普通的网页搜索引擎相比,它们最大的区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结...
分类:
其他好文 时间:
2014-06-26 07:38:14
阅读次数:
294
数据是当今企业的核心,能够提高企业的灵活性和决策水平。但数据(包括结构化和非结构化数据)的爆炸式增长加大了数据保护和存储的难度。 现在的企业每天需要处理大型和大量的文件,严酷的现实给企业的IT资源带来巨大的压力。例如,通过一条10GB连接备份一个84TB的数据集需要花费24小时的时间,而且期间...
分类:
其他好文 时间:
2014-06-25 13:45:49
阅读次数:
215
大型B2C网站高性能可伸缩架构技术探秘2010-07-21 08:51 狂放不羁 JavaEye字号:T|T向您介绍大型B2C网站高性能的网站架构技术,包括缓存的使用、应用程序和数据库的拆分、异步通信以及非结构化数据存储等。AD:WOT2014课程推荐:实战MSA:用开源软件搭建微服务系统在《世界最...
分类:
Web程序 时间:
2014-06-15 08:31:59
阅读次数:
317
在过去的几年中,雪崩的数据,包括结构化和非结构化数据,推动组织到了一个突破点,大数据时代俨然已经到了。在大数据时代,CIO和IT主管知道,他们能否取得成功,严重依赖于如何挖掘到大数据,并把它充分利用。然而,目前许多高管并不知道如何最好地利用大数据以提高企业决策能力。据凯捷最近发布的关于“决定因素:大...
分类:
其他好文 时间:
2014-05-29 19:01:33
阅读次数:
216
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:
Web程序 时间:
2014-05-26 05:54:50
阅读次数:
393
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。
...
分类:
其他好文 时间:
2014-05-15 18:13:55
阅读次数:
438
hbase与传统关系数据库区别hbase适合于非结构化数据存储的数据库。介于Map Entry
和 DB row之间的一种数据存储方式。1. 数据类型:
HBase只有简单的字符串类型,它只保存字符串所有的类型都是交给用户自己处理。关系型数据库可以选择类型2. 数据操作: HBase操作只有很简单的...
分类:
数据库 时间:
2014-05-09 09:51:14
阅读次数:
444