参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
wxwidget官方建议的工具集合:http://wiki.wxwidgets.org/Tools支持wxpython可视化开发工具wxFormBuilderwxGladewxDesignerVisualWX
分类:
编程语言 时间:
2014-04-28 06:37:32
阅读次数:
846
1.元组(tuple)元组由不同的元素组成,每个元素可以储存不同类型的数据,如字符串、数字甚至元组。元组是写保护的,即元组创建后不能再做任何修改操作。1.1元组的创建Tuple(元组)由一系列元素组成,所有元素被包含在一对圆括号中。创建元组时可以不指定元素个数,但一旦创建后就不能修改长度元组的创建格...
分类:
编程语言 时间:
2014-04-28 06:33:27
阅读次数:
711
近日,研究Tencent网页模拟登录的过程,过程有些忐忑。先将结果写于此,供大家参考:其加密过程在c_login_old.js文件中执行,将JS关键代码提取出来如下:function
hexchar2bin(str) { var arr = []; for (var ...
分类:
编程语言 时间:
2014-04-28 06:23:24
阅读次数:
1141
1下载驱动库http://sourceforge.net/projects/mysql-python/2,yum install mysql-dev*yum
install python-dev*3,python setup.py install
分类:
数据库 时间:
2014-04-28 05:40:20
阅读次数:
634
3.1 Installing mod_pythonTo install mod_python,
we simply run:yum install mod_python3.2 Configuring ApacheNow we must configure
Apache so that it can ...
分类:
编程语言 时间:
2014-04-28 04:52:46
阅读次数:
735
Java第一次亮相是在1994年由Sun公司技术总监JohnGage提出这个概念,96年正式推广第一个版本jdk1.0,到现在常用的有1.6和被oracle收购后发布的1.7版本。Java语言特点:相对C++语言更加通俗易懂,更没有指针,Java可以在任何一个平台操作系统上运行,程序员只需要编写程序...
分类:
编程语言 时间:
2014-04-28 03:24:12
阅读次数:
521
多并发的时候,在什么情况下必须加锁?如果不加锁会产生什么样的后果。加锁的场景跟java的new
thread和Runnable的关系是什么?看看java的concurrentMap源码。还有spring 的web.xml启动执行源码
分类:
编程语言 时间:
2014-04-28 03:16:05
阅读次数:
537
为什么没有采用多线程或者IO复用,原因是在多线程或IO复用的情况下,当前目录是共享的,无法根据每一个连接来拥有自己的当前目录。多进程模式下,一个连接拥有2个进程,一个是nobody进程,一个是服务进程。为什么使用nobody进程的原因是:在PORT模式下,服务器会主动建立数据通道连接客户端,服务器可...
分类:
其他好文 时间:
2014-04-28 01:00:27
阅读次数:
551
1、JAVA多线程简单示例 1.1 、Thread 集成接口Runnable 1.2
、线程状态,可以通过 Thread.getState()获取线程状态: New (新创建) Runnable (可以运行) Blocked (被阻塞)
Waiting (等待) Tim...
分类:
编程语言 时间:
2014-04-27 21:22:25
阅读次数:
813