一、SSL证书问题 上一篇文章,我们创建了一个小爬虫,下载了上海链家房产的几个网页。实际上我们在使用urllib联网的过程中,会遇到证书访问受限的问题。 处理HTTPS请求SSL证书验证,如果SSL证书验证不通过,会警告用户证书不受信任(即没有通过AC认证)。 上图左边我们可以看到SSL验证失败,所 ...
分类:
编程语言 时间:
2018-02-15 14:32:48
阅读次数:
204
练习下BeautifulSoup,requests库,用python3.3 写了一个简易的豆瓣小爬虫,将爬取的信息在控制台输出并且写入文件中。 上源码: 下面是效果图: ...
分类:
编程语言 时间:
2018-02-11 19:50:21
阅读次数:
216
源代码: "https://github.com/nnngu/LagouSpider" 效果预览 ![][7] 思路 1、首先我们打开拉勾网,并搜索“java”,显示出来的职位信息就是我们的目标。 2、接下来我们需要确定,怎样将信息提取出来。 查看网页源代码,这时候发现,网页源代码里面找不到职位相关 ...
分类:
编程语言 时间:
2018-02-03 12:35:46
阅读次数:
218
Python小白写的三个入门级的爬虫(附注释)写在前面的话:作者目前正在学习Python,还是一名小白,所以注释可以会有些不准确的地方,望谅解。这三个小爬虫不是很难,而且用处可能也不大,主要还是锻炼新手对函数的运用与理解大牛和意义党可以先绕过了附:我用的是Pyton2.713,用3.0的朋友运行可能会有些代码出错第一个,网页源代码爬虫;#--coding:utf-8--#一个巨详细又简单的小爬虫#
分类:
编程语言 时间:
2018-02-01 17:39:05
阅读次数:
379
正则表达式 目标 掌握正则表达式的规则 案例 一个小爬虫 简介 正则表达式(或re)是一种小型的、高度专业化的编程语言,(在python中)它内嵌在python中,并通过re模块实现 可以为想要匹配的相应字符串集指定规则 该字符集可能包含英文语句、e mail地址、命令或任何你想搞定的东西 可以问诸 ...
分类:
其他好文 时间:
2018-01-01 23:47:24
阅读次数:
229
刚学习爬虫,写了一个百度图片爬虫当作练习。 环境:python3.6(请下好第三方库requests) 实现的功能:输入关键字,下载240张关键字有关的百度图片到本地的d:\百度图片\关键字\文件夹中。 百度图片的加载是ajax异步形式的,除了前面的一部分图片,后面靠下拉加载的图片都是异步从服务器端 ...
分类:
其他好文 时间:
2017-12-27 21:33:04
阅读次数:
157
我已经是一个奔三的大龄青年了,以前一直做保健方面的工作,然而这并不是我想长期干下去的行业。自己一直对编程感兴趣,自学过Python,做点小程序小爬虫什么的。但是,没有相关的计算机知识背景,这点知识去找工作是天方夜谈。 年龄已不小,我知道,若是再不入行,就彻底没机会了。于是,今年初果断辞职了
分类:
其他好文 时间:
2017-12-27 10:13:49
阅读次数:
174
const http = require('http'); const fs = require('fs'); const cheerio = require('cheerio'); const urlArr = []; const imgArr = []; for(var i=1 ; i<=33 ... ...
分类:
其他好文 时间:
2017-12-13 23:19:39
阅读次数:
179
const request=require('request'); const cheerio=require('cheerio'); (function () { //页面信息==》简介相关 var getInfo=function (i) { var url='http://www.cnblog ...
分类:
其他好文 时间:
2017-12-10 14:37:49
阅读次数:
190
Python写爬虫的感觉那叫一个爽!100行代码不到,爬取整站,貌似这样下去拉钩还不加强服务器么?下面看看半智能的效果,下面看图: 输入命令后,小爬虫开始工作了! 爬去结束后小爬虫自动生成了一个XLS文件,一般的excel就能打开了最后看看成果: 好了,效果看完了,看看小爬虫怎么制造出来的吧。。。其 ...
分类:
其他好文 时间:
2017-10-31 11:11:34
阅读次数:
219