1. 安装Beautiful Soup下载地址http://www.crummy.com/software/BeautifulSoup/bs4/download/4.4/解压后,进入根目录控制台下运行:python setup.py install运行结果:Processing dependenci...
分类:
编程语言 时间:
2015-09-16 12:23:42
阅读次数:
254
HTTP是一个客户端和服务器端请求和应答的标准(TCP),客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求...
分类:
编程语言 时间:
2015-09-15 00:20:38
阅读次数:
239
HTTP是一个客户端和服务器端请求和应答的标准(TCP),客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。具体POST或GET实现代码如下:packagecom.yoodb.util;impor...
分类:
编程语言 时间:
2015-09-14 23:54:58
阅读次数:
263
问题背景:指定爬虫depth、线程数, python实现并行爬虫 思路: 单线程 实现爬虫类Fetcher 多线程 threading.Thread去调Fetcher 方法:Fetcher 中,用urllib.urlopen打开指定url,读取信息:response = urllib.urlopen(self.url)
content = respon...
分类:
编程语言 时间:
2015-09-07 22:55:23
阅读次数:
248
初学网络爬虫,请多多指教以下是我觉得有用的资源总结,资源均来自网上编程语言:java使用网络爬虫:spidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Spiderman主要是运用了像XPath,正则表达式等这些技术来实数...
分类:
其他好文 时间:
2015-09-06 18:07:39
阅读次数:
148
Web Crawler, 也时也称scrapers,即网络爬虫,用于自动搜索internet并从中提取 想要的内容。互联网的发展离不开它们。爬虫是搜索引擎的核心,通过智能算法发现符合 你输入的关键字的网页。Google网络爬虫会进入你的域名,然后扫描你网站的所有网页,从中析取网页标题,描述, 关键字...
分类:
Web程序 时间:
2015-09-06 18:00:02
阅读次数:
219
随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战。网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性的抓取,它就像是一只蜘蛛一样在互联网中爬来爬去,所以我们很形象地将其称为是网络爬虫技术。其中网络爬虫也被.....
分类:
其他好文 时间:
2015-09-04 07:24:55
阅读次数:
257
Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要用它进行打开url,读取url里面的内容,下载里面的图片。分以下几步:step1:用urllib.request.urlopen打开目标网站step2:由于urllib.request.urlopen返回的是一个ht...
分类:
编程语言 时间:
2015-09-03 23:18:09
阅读次数:
466
HTTP状态码,我都是现查现用。 我以前记得几个常用的状态码,比如200,302,304,404, 503。 一般来说我也只需要了解这些常用的状态码就可以了。? 如果是做AJAX,REST,网络爬虫,机器人等程序。还是需要了解其他...
分类:
Web程序 时间:
2015-09-02 16:03:10
阅读次数:
181
上一篇写到,要是分析每一个url,包括滚动条滚动的url和分页的url就可以构造出来url来访问,从而抓取信息,但是这样要是想把我关注的人的所有微博全部输出的话,岂不是每个关注的人的url...
分类:
Web程序 时间:
2015-09-01 20:08:08
阅读次数:
1070