10.5 If you were designing a web crawler, how would you avoid getting into infinite loops?这道题问如果让我们设计一个网络爬虫,怎么样才能避免进入无限循环。那么何谓无限循环呢,如果我们将网络看做一个图Graph,...
分类:
Web程序 时间:
2015-10-09 00:34:16
阅读次数:
245
参考:http://www.cnblogs.com/dongkuo/p/4851735.html算法分析 我们现在从需求中提取关键词来逐步分析问题。 首先是“种子节点”。它就是一个或多个在爬虫程序运行前手动给出的URL(网址),爬虫正是下载并解析这些种子URL指向的页面,从中提取出新的URL,然后重...
分类:
其他好文 时间:
2015-10-03 00:59:08
阅读次数:
414
当然,数据挖掘,数据准备部分考虑这样做:配置文件的基础上,打开相应的网站,并保存。之后这些文件的内容,然后分析、文本提取、矩阵变换、集群。public static void main(String[] args){ final int THREAD_COUNT=5; String ...
分类:
其他好文 时间:
2015-09-28 11:17:19
阅读次数:
179
HTTP状态码,我都是现查现用。 我以前记得几个常用的状态码,比如200,302,304,404, 503。 一般来说我也只需要了解这些常用的状态码就可以了。 如果是做AJAX,REST,网络爬虫,机器人等程序。还是需要了解其他状态码。 本文我花了一个多月的时间把所有的状态码都总结了下,内容太多,看...
分类:
Web程序 时间:
2015-09-25 23:04:35
阅读次数:
245
WikiScraper.javapackage master.haku.scrape;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import java.net.*;import java.io.*;public class Wiki...
分类:
编程语言 时间:
2015-09-24 20:56:44
阅读次数:
198
代码 # -*- coding: cp936 -*-
__author__ = "christian chen"
import urllib2
import re
import threading
import time
class Tool:
def pTitle(self):
return re.compile(‘<title.*?>(.*?)</‘, r...
分类:
编程语言 时间:
2015-09-24 17:53:15
阅读次数:
266
下面我们创建一个真正的爬虫例子爬取我的博客园个人主页首页的推荐文章列表和地址scrape_home_articles.pyfrom urllib.request import urlopenfrom bs4 import BeautifulSoupimport rehtml = urlopen("h...
分类:
编程语言 时间:
2015-09-23 13:12:05
阅读次数:
208
最近拉肚子三天了,晚上单位又聚餐,一不小心吃多了点,晚上跑厕所跑的频繁,索性睡不着了,参照网上资料,敲了段python 爬虫代码,第一次学习除了shell 和js 外的脚本语言,无限的坑坑,都说python 的效率是...
分类:
编程语言 时间:
2015-09-21 19:51:39
阅读次数:
233
handle_excpetion.pyfrom urllib.request import urlopenfrom urllib.error import HTTPErrorfrom bs4 import BeautifulSoupimport sysdef getLogo(url): try...
分类:
编程语言 时间:
2015-09-16 17:30:18
阅读次数:
244
目标:我们解析百度首页的logobs_baidu_logo.pyfrom urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.baidu.com")bsObj = Beautiful...
分类:
编程语言 时间:
2015-09-16 12:48:22
阅读次数:
220