上一节我们下载并使用了宽度优先的爬虫,这一节我们来具体看一下这个爬虫的原理。 首先,查看HTML.py的源代码。 第一个函数: 这个函数的作用是抓取url的内容(二进制内容,可以直接传进beautifulsoup里分析)。之所以显得比较复杂,是因为加入了一些异常处理,使得函数的可靠性更强一些。另外也 ...
分类:
Web程序 时间:
2017-05-05 23:06:29
阅读次数:
222
导语 企鹅媒体平台媒体名片页反爬虫技术实践,分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内。 Cookie是什么 大家都知道http请求是无状态的,为了让http请求从“无状态” t ...
分类:
其他好文 时间:
2017-05-01 22:27:10
阅读次数:
370
前言 Python非常适合用来开发网页爬虫,理由如下:1、抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib2包提供了较为完整的访问网页文档的API。(当然ruby也是很好... ...
分类:
编程语言 时间:
2017-04-10 15:19:32
阅读次数:
357
我非常赞成外包的做法,主要有三个原因:弥补技能的不足,因为你的时间比 XYZ 任务更值钱,你需要推进的更快 ...
分类:
其他好文 时间:
2017-03-22 16:41:52
阅读次数:
136
因为做网页爬虫,需要用到一个爬新闻的BeautifulSoup 的包,然后再关网上下的是whl包,第一次装,虽然花了点时间,最后还是装上去了,记录一下,方便下次。 先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 建议有 ...
分类:
编程语言 时间:
2017-01-08 12:43:39
阅读次数:
255
先恶补一下知识点: 上下文切换:当CPU从执行一个线程切换到执行另外一个线程的时候,它需要先存储当前线程的本地的数据,程序指针等,然后载入另一个线程的本地数据,程序指针等,最后才开始执行。这种切换称为“上下文切换”(“context switch”) CPU会在一个上下文中执行一个线程,然后切换到另 ...
分类:
其他好文 时间:
2016-12-19 11:07:02
阅读次数:
148
代码比较粗糙,主要是备忘容易出错的地方。供自己以后查阅。#图片下载importreimporturllib.request#python3中模块名和2.x(urllib)的不一样site=‘https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC‘page=urllib.request.urlopen(site)h..
分类:
编程语言 时间:
2016-11-13 02:51:09
阅读次数:
192
以前也接触过爬虫方面的知识,但是总体感觉写爬虫的话,最好使用python,因为python有很多数据采集方面的库, 此外python这面语言使用起来比较简洁易读,在采集的过程中,维护起来也比较方便! 首先来几个简单的数据采集: import requests req=requests.get("ht ...
分类:
编程语言 时间:
2016-11-05 00:15:09
阅读次数:
289
爬虫,个人理解就是:利用模拟“操作浏览器”的过程,自动获取我们想要的数据(或者说信息,比如图片啊) 为何要学爬虫:爬取数据,为我所用(相当于可以把一类数据整合起来) 一.简单静态网页爬虫架构: 1.Background Knowledge:URL(统一资源定位符,能帮助我们定位到网页在网络中的位置, ...
分类:
编程语言 时间:
2016-10-30 19:56:02
阅读次数:
257
任务描述 使用node开发一个小工具,扫描分子反应动力国家重点实验室新闻动态列表页前三页的信息(地址如下:http://www.sklmr.dicp.ac.cn/list.php?tid=1) 要求打印出新闻名称,链接地址,发布时间。 例如在控制台打印 韩克利入选2016年度“中国科学院特聘研究员” ...
分类:
Web程序 时间:
2016-10-20 15:36:01
阅读次数:
263