码迷,mamicode.com
首页 >  
搜索关键字:网络爬虫    ( 1546个结果
[CareerCup] 10.5 Web Crawler 网络爬虫
10.5 If you were designing a web crawler, how would you avoid getting into infinite loops?这道题问如果让我们设计一个网络爬虫,怎么样才能避免进入无限循环。那么何谓无限循环呢,如果我们将网络看做一个图Graph,...
分类:Web程序   时间:2015-10-09 00:34:16    阅读次数:245
网络爬虫(1)
参考:http://www.cnblogs.com/dongkuo/p/4851735.html算法分析 我们现在从需求中提取关键词来逐步分析问题。 首先是“种子节点”。它就是一个或多个在爬虫程序运行前手动给出的URL(网址),爬虫正是下载并解析这些种子URL指向的页面,从中提取出新的URL,然后重...
分类:其他好文   时间:2015-10-03 00:59:08    阅读次数:414
网络爬虫
当然,数据挖掘,数据准备部分考虑这样做:配置文件的基础上,打开相应的网站,并保存。之后这些文件的内容,然后分析、文本提取、矩阵变换、集群。public static void main(String[] args){ final int THREAD_COUNT=5; String ...
分类:其他好文   时间:2015-09-28 11:17:19    阅读次数:179
HTTP协议 (六) 状态码详解
HTTP状态码,我都是现查现用。 我以前记得几个常用的状态码,比如200,302,304,404, 503。 一般来说我也只需要了解这些常用的状态码就可以了。 如果是做AJAX,REST,网络爬虫,机器人等程序。还是需要了解其他状态码。 本文我花了一个多月的时间把所有的状态码都总结了下,内容太多,看...
分类:Web程序   时间:2015-09-25 23:04:35    阅读次数:245
Java网络爬虫 - 一个简单的爬虫例子
WikiScraper.javapackage master.haku.scrape;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import java.net.*;import java.io.*;public class Wiki...
分类:编程语言   时间:2015-09-24 20:56:44    阅读次数:198
Python 网络爬虫 - 抓取糗事百科的段子(最新版)
代码 # -*- coding: cp936 -*- __author__ = "christian chen" import urllib2 import re import threading import time class Tool: def pTitle(self): return re.compile(‘<title.*?>(.*?)</‘, r...
分类:编程语言   时间:2015-09-24 17:53:15    阅读次数:266
Python网络爬虫 - 一个简单的爬虫例子
下面我们创建一个真正的爬虫例子爬取我的博客园个人主页首页的推荐文章列表和地址scrape_home_articles.pyfrom urllib.request import urlopenfrom bs4 import BeautifulSoupimport rehtml = urlopen("h...
分类:编程语言   时间:2015-09-23 13:12:05    阅读次数:208
简单的python 网络爬虫实现
最近拉肚子三天了,晚上单位又聚餐,一不小心吃多了点,晚上跑厕所跑的频繁,索性睡不着了,参照网上资料,敲了段python 爬虫代码,第一次学习除了shell 和js 外的脚本语言,无限的坑坑,都说python 的效率是...
分类:编程语言   时间:2015-09-21 19:51:39    阅读次数:233
Python网络爬虫 - 3. 异常处理
handle_excpetion.pyfrom urllib.request import urlopenfrom urllib.error import HTTPErrorfrom bs4 import BeautifulSoupimport sysdef getLogo(url): try...
分类:编程语言   时间:2015-09-16 17:30:18    阅读次数:244
Python网络爬虫 - 2. Beautiful Soup小试牛刀
目标:我们解析百度首页的logobs_baidu_logo.pyfrom urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.baidu.com")bsObj = Beautiful...
分类:编程语言   时间:2015-09-16 12:48:22    阅读次数:220
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!