http://blog.csdn.net/pi9nc/article/details/9734437 一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面...
分类:
编程语言 时间:
2014-08-26 00:06:55
阅读次数:
299
吐槽前天心血来潮, 把自己面试经历下了下来.我觉得自己求职一路来比较心酸, 也付出了比一般人更多的汗水.本以为写出来, 好歹可以作为一篇励志故事.得到的评论却是, 语言只是一门工具. ||| 这句话我已经听了4年了! 我以前也是XX, 现在XXX. ||| 直到你膝盖中了一箭? 我也是用c的....
分类:
编程语言 时间:
2014-08-24 12:53:33
阅读次数:
313
吐槽前天心血来潮, 把自己面试经历下了下来.我觉得自己求职一路来比较心酸, 也付出了比一般人更多的汗水.本以为写出来, 好歹可以作为一篇励志故事.得到的评论却是, 语言只是一门工具. ||| 这句话我已经听了4年了! 我以前也是XX, 现在XXX. ||| 直到你膝盖中了一箭? 我也是用c的....
分类:
编程语言 时间:
2014-08-24 00:11:51
阅读次数:
332
七日python之路 七日python -- 第一天 七日python -- 第二天 ... scrapy爬虫 python爬虫----(1. 基本模块) ... pytnon基础 python基本 -- threading多线程模块的使用 python基本 -- mysql 的使用...
分类:
其他好文 时间:
2014-08-23 04:38:50
阅读次数:
171
import mysql.connectorimport sys, osimport urllib.requestimport reimport itertoolsimport base64search_item='金融'#搜索项改这个就可以了#以后只需要修改search_item就可以了#转成by...
分类:
其他好文 时间:
2014-08-22 16:02:29
阅读次数:
197
使用 libtorrent 的python绑定库实现一个dht网络爬虫,抓取dht网络中的磁力链接。 dht 网络简介 p2p网络 在P2P网络中,通过种子文件下载资源时,要知道资源在P2P网络中哪些计算机中,这些传输资源的计算机称作pee...
分类:
编程语言 时间:
2014-08-22 14:40:39
阅读次数:
222
闲的时候一直在自己研究爬虫相关的东西,看过一两个开源框架,自己照猫画虎的写了一个,目前看来我的爬虫可以用了,但还是有很多不足,把我目前的经验写出来跟大家分享一下。 国外爬虫的局限 1.太守规矩(如果有Robot文件就要按着爬) 2.无法自由切换代理,如果切换代理对所有线程都有影响,...
分类:
其他好文 时间:
2014-08-22 10:35:25
阅读次数:
321
利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦。耽误了好久,还是豆瓣好呀,URL那么的规范。唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon
├──?amazon
│??...
分类:
编程语言 时间:
2014-08-22 05:03:45
阅读次数:
3369
本章描述:对于Protocol的封装 package?com.digitalpebble.storm.crawler.fetcher;
import?com.digitalpebble.storm.crawler.util.Configuration;
public?interface?Protocol?{
????public?Protoco...
分类:
其他好文 时间:
2014-08-21 19:45:55
阅读次数:
147
package?com.digitalpebble.storm.crawler;
import?backtype.storm.Config;
import?backtype.storm.metric.MetricsConsumerBolt;
import?backtype.storm.metric.api.IMetricsConsumer;
import?backtype.st...
分类:
其他好文 时间:
2014-08-21 17:25:44
阅读次数:
185