关于爬取猫眼排行榜的教程网上可以说是烂大街了,因此感谢那些踩坑的前辈,我又再次把你们的坑在踩了一次,手动哭泣 这是我的思路: 得到网页url——爬取网页源代码——使用正则表达式分析网页——写入TXT文件 得到网页url,这没得说 爬取网页源代码 正则分析网页源码,这里踩了一个坑,正则表达式忘记添加了 ...
分类:
其他好文 时间:
2019-09-02 20:59:55
阅读次数:
94
python爬虫教程:《利用Python爬取表情包》,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ ...
分类:
编程语言 时间:
2019-09-02 10:04:08
阅读次数:
111
携程爬取阳光问帖子:进行了简单的数据存储,数据量共145226条,爬取时间为:3.65小时,时间感觉要多于这个时间。 代码如下: 复习协程的知识: 多线程会抢抢夺公共资源,因此会造成公共资源的不安全,需要通过线程锁进行解决,那么多个携程为什么不存在这个情况呢? 因为多个协程也是在一个线程里面进行运行 ...
分类:
其他好文 时间:
2019-09-01 21:48:18
阅读次数:
111
今天不知道写点什么,想到金9银10了写一篇抓取拉勾网我们软件测试工程师的薪资~~ 爬取拉勾网职业信息 分析网站信息 1、打开拉勾网,输入我们想要查找的职位 2、通过抓包工具或者开发者工具查看请求数据 发现是请求地址:https://www.lagou.com/jobs/positionAjax.js ...
分类:
其他好文 时间:
2019-09-01 21:37:22
阅读次数:
132
原文地址:http://www.mapboxx.cn/article/geography/ ## 坐标系的基本概念 坐标系分为地理坐标系和投影坐标系,以下是对这两种坐标系的解释: * 地理坐标系:为球面坐标。参考平面地是椭球面,坐标单位:经纬度 * 投影坐标系:为平面坐标。参考平面地是水平面,坐标单 ...
分类:
其他好文 时间:
2019-09-01 18:22:15
阅读次数:
236
其实这个是有客户要求做的,但我完成的不够完美。过来分享出来好了~ 首先,你知道抖音有一个用户分享页吧? 像这样的:https://www.douyin.com/share/user/58841646784 F12查看代码。 ok,可以看到有数字的地方都做了字体反爬,比如抖音id上的数字啊,粉丝数这些 ...
分类:
其他好文 时间:
2019-09-01 12:19:26
阅读次数:
689
如何学习Python爬虫,爬虫的难点其实并不在于爬虫本身。而是各种各样的反爬虫措施。下面以一个小案例分享一下,带你们领略一下python的魅力。 ...
分类:
编程语言 时间:
2019-09-01 10:58:42
阅读次数:
135
一、什么是ajax AJAX 指异步 JavaScript 及 XML(Asynchronous JavaScript And XML) ajax不是一门编程语言,而是利用Javascript在保证页面不被刷新,页面链接不改变的情况下与服务器交换数据并更新部分网页的技术 二、抓取分析 打开今日头条, ...
分类:
Web程序 时间:
2019-08-31 23:28:35
阅读次数:
164
思路: 1、打开书本“更多”短评,复制链接 2、脚本分析链接,通过获取短评数,计算出页码数 3、通过页码数,循环爬取当页短评 4、短评写入到txt文本 5、读取txt文本,处理文本,输出出现频率最高的词组(前X) 通过分析得到其他结果可自由发散 用到的库: 整个脚本如下 执行结果 需要注意的是,如果 ...
分类:
编程语言 时间:
2019-08-31 21:26:18
阅读次数:
117
python3默认是utf8的,爬取gbk网页的时候会出现乱码 解决办法 text不转换会出现错误,python3字符集不支持转码 第二种方法 test.content.decode("gbk") decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb231 ...
分类:
编程语言 时间:
2019-08-31 19:42:01
阅读次数:
498