在进行爬虫的过程当中,我们经常会遇到被封IP的情况,因此我们可以搜集一些代理IP,然后使用程序去测试哪些代理IP是可用的,我在这里使用了请求如下网站的方法: http://icanhazip.com/ 请求这个网站之后,如果请求成功,没有遇到异常,就会返回当前你请求这个网站的IP地址。同时保存到一个 ...
分类:
编程语言 时间:
2021-02-09 12:20:54
阅读次数:
0
爬虫最近搞不懂动了 为了毕设,开始弄一下树莓派 为了图方便,先摸了摸scratch图形编程,虽然自己也会C++和Python。 有图形编程在前,后面的就很好理解了,先开第一章,努力写好树莓派和传感器的日志(不敢说教程,太菜了)。 嵌入式第一条!针脚定义要知道 针脚定义图: C++用得wiringPi ...
分类:
编程语言 时间:
2021-02-08 12:17:46
阅读次数:
0
通过python可以调用smtp第三方邮件服务接口,这使得我们可以通过python直接来发送邮件。在这个功能基础上,我们可以结合Linux的定时任务服务Crontab,来开发一些有意思的项目,比如爬虫等。这里我们就只简单演示一个定时播报随机数的任务示例,很好的结合了crontab定时任务、pytho... ...
分类:
编程语言 时间:
2021-02-08 12:06:32
阅读次数:
0
背景 在1688官网里面有很多信息是需要登录才能看得到的,比如商家的联系电话等等。那么我们在抓取它的网页的时候,肯定是需要维持登录状态才能得到对应的内容。这里面就会涉及到自动登录的问题。 登录地址 https://login.1688.com/member/signin.htm 自动登录方法 1、找 ...
#VS2019新建python项目 在vs2019中添加python编译环境 创建python控制台应用程序项目 #配置python环境 ##安装requests第三方库 管理程序包,执行安装requests包命令pip install requests ##导入第三方包 import reques ...
分类:
编程语言 时间:
2021-02-05 10:46:36
阅读次数:
0
免修改hosts文件哦,如果修改过请删除网址再激活 (更新日期:2月1号) 温馨提示:激活码支持idea,pycharm,webstorm,phpstorm激活 (注意:如果激活后还显示cancelled,请重启一下软件就可以了) `激活码会定期更新,后续直接在公众号「Python爬虫数据分析挖掘」 ...
分类:
Web程序 时间:
2021-02-05 10:32:12
阅读次数:
0
最近运行了一下之前用easyswoole写的一个爬虫的demo,却发现启动直接报错。swServer_start_check: onTask event callback must be set at,大致的意思是没有设置onTask事件。因为easyswoole是个框架,遇到这种问题真不好排查。 ...
分类:
其他好文 时间:
2021-02-04 12:06:26
阅读次数:
0
一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的Schedul ...
分类:
其他好文 时间:
2021-02-02 11:24:43
阅读次数:
0
个人记录 let http = require("http"); let fs = require("fs"); let cheerio = require("cheerio");//服务端的DOM解析模块 http.get("http://www.mobiletrain.org/teacher/" ...
分类:
其他好文 时间:
2021-02-02 11:15:44
阅读次数:
0
Markdown学习 标题 三级标题 四级标题 字体 hello,word hello,word hello,word hello,word 引用 选择 分割线 图片 超链接 点击跳转 列表 A B C A B C 表格 名字性别生日 张三 男 1987.8. 代码 hello world ...
分类:
其他好文 时间:
2021-02-02 11:03:14
阅读次数:
0