参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
系统现在很慢”似乎是对系统的性能最常用的抱怨了,但究竟慢到什么程度,如何来界定慢,可能需要对性能进行量化,对于OS来说,大致主要分为cpu,内存,磁盘,网络等组件,对这些维度的性能量化,不但可以更准确的定位到系统的瓶颈,更是做容量评估的基础。下面先看看cpu。
Cpu的性能主要跟缓存,主频,指令集,...
分类:
其他好文 时间:
2014-04-28 03:36:06
阅读次数:
578
在阅读本文前,您需要了解云计算与互联网开发基础知识。[忙信号模式]是专注应用程序对当云服务请求响应不成功时忙信号如何处理。这种模式从客户端角度出发,这里主要描述的云计算中场景。客户端是每发出请求到服务端,服务端答复忙信号。客户端负责根据忙信号做出适当数量的重试次数处理。如果重试过程中继续收到忙信号,...
分类:
其他好文 时间:
2014-04-28 03:34:09
阅读次数:
729
DataVeryLite 是基于.net
4.0的数据库持久化ORM框架.目前支持的数据库有Sqlserver,Mysql,Oracle,Db2,PostgreSql,Sqlite和Access.DataVeryLite的配置系统非常简单,稍微有点c#基础的程序猿,半小时都能上手;不仅学习简单,编码...
分类:
其他好文 时间:
2014-04-28 02:29:00
阅读次数:
546
Java的优势1. 简单
不像C或者C++语言,Java中省去了对指针的操作。但是,Java中并没有省去指针,代替指针的是一种新的变量——引用,引用也是保存一个对象的内存地址。2.方便
Java虚拟机自带垃圾回收器,能够自动回收内存资源。而C和C++语言,需要开发人员手动进行内存资源回收。3.安.....
分类:
编程语言 时间:
2014-04-28 00:01:34
阅读次数:
574
在所有的移动开发平台数据持久化都是很重要的部分:在j2me中是rms或保存在应用程序的目录中,在symbian中可以保存在相应的磁盘目录中和数据库中。symbian中因为权限认证的原因,在3rd上大多数只能访问应用程序的private目录或其它系统共享目录。在iphone中,apple博采众长,提供...
分类:
其他好文 时间:
2014-04-27 23:26:05
阅读次数:
803
前三次作业都是基础语法。真的好水啊。从这次开始记录。1.编写Java程序,把当前目录下扩展名为txt的文件的扩展名全部更名为back。
1 import java.io.*; 2 import java.lang.*; 3 4 5 public class Home { 6 7 ...
分类:
编程语言 时间:
2014-04-27 23:00:20
阅读次数:
856
Java的基础语法中包含字符集、标识符和关键字、变量和常量、语句、注释、运算符和表达式这些基本要素。
一、关键字 编程语言都有一些保留的单词,用于定义该语言,这些单词对于编译器有特殊含义,不能作为标识符使用;
Java中的true、false、null这三个保留字,不能作为标识符使用,对于...
分类:
编程语言 时间:
2014-04-27 22:36:25
阅读次数:
639
此系列文章只是OpenCV
tutorials的学习和总结。网址:http://docs.opencv.org/doc/tutorials/tutorials.html基础OpenCV入门包括以下内容:OpenCV介绍---------------------------------学习如何安装Op...
分类:
其他好文 时间:
2014-04-27 22:34:28
阅读次数:
503
1、 solr基础因为 Solr 包装并扩展了
Lucene,所以它们使用很多相同的术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr
进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。在 Sol...
分类:
其他好文 时间:
2014-04-27 21:38:00
阅读次数:
607