现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:
Web程序 时间:
2014-05-26 05:54:50
阅读次数:
393
Lsyncd+ssh1、描述开源lsyncd采用inotify原理监听某一个目录,如果目录内发生变化,利用rsync协议自动同步多服务器,因此lsyncd是一个轻量级的实时镜像解决方案。细粒度的定制可以通过配置文件来实现,配置文件可以编写lua代码,这种方式简单,功能强大和灵活的配置。2、开源..
分类:
其他好文 时间:
2014-05-25 05:39:43
阅读次数:
3510
1.基本介绍:paoding:Lucene中文分词“庖丁解牛”
PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法
实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理...
分类:
其他好文 时间:
2014-05-24 11:47:16
阅读次数:
358
http://www.cnblogs.com/jiejnan/archive/2012/05/18/2507476.html简介:
当需要对 Linux?文件系统进行高效率、细粒度、异步地监控时,可以采用
inotify。可利用它对用户空间进行安全、性能、以及其他方面的监控。至于inotify的基本...
分类:
系统相关 时间:
2014-05-22 02:46:44
阅读次数:
530
原文第11章 享元模式(Flyweight Pattern)概述:
面向对象的思想很好地解决了抽象性的问题,一般也不会出现性能上的问题。但是在某些情况下,对象的数量可能会太多,从而导致了运行时的代价。那么我们如何去避免大量细粒度的对象,同时又不影响客户程序使用面向对象的方式进行操作?享元模式j就可以...
分类:
其他好文 时间:
2014-05-12 08:53:38
阅读次数:
276
ArcGIS产品线为用户提供一个可伸缩的,全面的GIS平台。ArcObjects包含了大量的可编程组件,从细粒度的对象(例如,单个的几何对象)到粗粒度的对象(例如与现有ArcMap文档交互的地图对象)涉及面极广,这些对象为开发者集成了全面的GIS功能。每一个使用ArcObjects建成的ArcGIS...
分类:
其他好文 时间:
2014-05-11 15:18:36
阅读次数:
499
在Java多线程程序中,由于线程调度,指令间的次序在每次运行时都可能不相同,有时候,我们需要得到指令次序,用来分析程序的行为。这样细粒度的底层行为用一般方法很难完成,我们需要借助 JVM Tool Interface,即JVMTI,来帮助我们获取Java虚拟机执行时的信息。本文先介绍编写JVMTI程序的基本框架,然后介绍如何使用JVMTI来获取多线程程序中指令之间的次序。...
分类:
编程语言 时间:
2014-04-29 13:11:22
阅读次数:
892