Url管理器: 用来管理要抓取的url和已抓取的url,防止重复抓取和循环抓取,url管理器的五个最小功能: 1、添加url到容器中 2、获取一个url 3、判断url是否已在容器中 4、判断是否还有待爬取的url 5、将待爬取的url移到已爬取的url 网页下载器: 网页下载器是爬虫的核心组件,它 ...
分类:
编程语言 时间:
2020-01-28 12:24:55
阅读次数:
55
参考资料:https://cuiqingcai.com/993.html 即 静觅 » Python爬虫实战二之爬取百度贴吧帖子 我最近在忙学校的一个小项目的时候涉及到NLP的内容。但是在考虑如何训练的时候却才懂什么叫巧妇难为无米之炊的滋味。中文语料库实在少的可怜,偶尔有一两个带标签的语料库,拿出一 ...
分类:
编程语言 时间:
2020-01-28 09:28:35
阅读次数:
74
日期:2020.01.27 博客期:135 星期一 【本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)】 今天问了一下老师,信息领域热词从哪里爬,老师说是IT方面的新闻,嗯~有点儿意思了! 我找到了好多IT网站,但是大多数广告又多,名词也不专一针对信息领域,所以啊我就暂且用例一 ...
分类:
编程语言 时间:
2020-01-27 17:38:44
阅读次数:
209
今年过年真的是一点年味都没有了。因为肺炎,我们这里不允许出去走亲访友。其实这样也好,不出去又安全又省事,在家里待着就能为国家做贡献。😂 昨天和今天看了点python,然后试着做了做爬取北京市政百姓信件的实验。 北京市政百姓信件列表的官网已经改变,用实验要求里给的网站只会显示无法打开该网页,后来百度 ...
分类:
其他好文 时间:
2020-01-27 13:44:46
阅读次数:
75
为提高工作效率,让多个爬虫一起工作 需要使用的库是:gevent 方式一 1.使用队列的形式: from gevent import monkey # 从gevent库里导入monkey模块。 monkey.patch_all() # monkey.patch_all()能把程序变成协作式运行,就是 ...
分类:
其他好文 时间:
2020-01-26 23:51:48
阅读次数:
174
日期:2020.01.26 博客期:134 星期日 1、Python爬取任务已经完成,包括制作网页可视化,详情请看博客:https://www.cnblogs.com/onepersonwholive/p/12229362.html! 2、开始着手于“热词分析”方面的爬取(现在对于热词从哪里爬还是有 ...
分类:
其他好文 时间:
2020-01-26 22:24:10
阅读次数:
77
一、什么是字体反爬? 字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴、爬取操作时,使用的还是标准的Unicode字符映射,解析后就是干扰性数据,以猫眼电影为例: 上图表明,浏览器正常渲染的数据在调试界面显示为错 ...
分类:
编程语言 时间:
2020-01-26 20:45:17
阅读次数:
92
爬取猫眼电影排行,无法正常显示中文,出现乱码 response.text响应总是乱码 找了许多种方法,python爬虫解决gbk乱码问题、python爬虫的中文乱码问题? - 知乎 发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过 import requests ur ...
分类:
其他好文 时间:
2020-01-26 19:00:09
阅读次数:
114
日期:2020.01.25 博客期:133 星期六 【代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明】 //博客总体说明 1、准备工作 2、爬取工作 3、数据处理 4、信息展示(本期博客) 大年初一,先给大家说声“过年好”!嗯~说说今天写的部分,因为今天过大年嘛,也没有写什么特别难的东 ...
分类:
编程语言 时间:
2020-01-25 11:45:26
阅读次数:
113
日期:2020.01.24 博客期:132 星期五 好了今天是除夕,先给大家说句吉利话,“祝大家打代码代代顺利,码码成功”!我因为回家了,今天没做太多东西... ...呼~ 登录虚拟机,启动hadoop和hive,准备做数据处理部分! //建数据库的语句 create table govdata( ...
分类:
编程语言 时间:
2020-01-24 18:44:16
阅读次数:
85