思路: 1、打开书本“更多”短评,复制链接 2、脚本分析链接,通过获取短评数,计算出页码数 3、通过页码数,循环爬取当页短评 4、短评写入到txt文本 5、读取txt文本,处理文本,输出出现频率最高的词组(前X) 通过分析得到其他结果可自由发散 用到的库: 整个脚本如下 执行结果 需要注意的是,如果 ...
分类:
编程语言 时间:
2019-08-31 21:26:18
阅读次数:
117
记录一下爬取豆瓣热门专栏的经过,通过这篇文章,你能学会requests,HTMLParser,json的基本使用,以及爬取网页内容的基本思路。 使用模块 1,获取豆瓣首页代码:首先我们需要访问豆瓣页面,获取首页的源码。这里推荐使用第三方库:requests,相比python内置的 urllib 模块 ...
分类:
编程语言 时间:
2019-08-31 17:42:10
阅读次数:
114
今日提交: 今天完成的任务: ①上午找了一下豆瓣评论的接口API,但是找了几个都已经禁止访问了..... ②看了一下以前写的代码,整理了一下逻辑,准备下午的答辩。 ③下午就进行了答辩。 明天的计划: ①上午之前一定要把接口给找到 ②若找到的话,下午就进行detail的数据获取和部署。 ③与组员讨论思 ...
分类:
其他好文 时间:
2019-08-30 19:34:12
阅读次数:
77
一般成熟的网站都会有反爬虫策略,例如限制访问次数,限制访问 IP,动态显示数据等。爬虫和反爬虫就是一直相爱相杀地互相钳制。如果要通过爬虫来获取某些大型网站的数据,那是一件很费时费力的活。小白总遭遇过在趟过各种坑之前就被封 IP 或封账号的打击(呜呜~说的就是我)。 不过有一些公司心怀开放互联的态度, ...
昨日回顾: requests模块使用过 response=request。get() response。text response。content 解决字符编码问题 response。encoding=‘utf 8’ 1爬虫三部曲 发送请求 解析数据 保存数据 2爬取豆瓣电影接口 分析目标网站请求流 ...
分类:
其他好文 时间:
2019-08-29 21:36:35
阅读次数:
123
爬虫项目介绍 本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 豆瓣Top250电影 本次爬虫项目将分别不使用多线程和使用多线程来完成,通过两者的对比,显示出多线程在爬虫项目中的巨大优势。本文所使用的多线程 ...
分类:
编程语言 时间:
2019-08-29 17:50:29
阅读次数:
97
当天完成的任务: (1)提交getlab代码,可从上面找到。 (2)与组员一起完成电影列表页的体现。 (3)配置一些网络爬虫的组件 第二天的计划: (1)对detail页面布局和样式与组员完成。 (2)从豆瓣进行电影网络数据爬虫。 (3)进行jdbc测试。 每日小结: 今天我和组员进行了电影页面设计 ...
分类:
其他好文 时间:
2019-08-27 21:13:41
阅读次数:
84
[TOC] 文件的类型 什么是文件? 一堆.py/.txt 存储着文字信息文件, 文件的分类 二进制文件:由0、1组成,例如.png文件 文本文件:由单一特定编码组成的文件,如utf8,例如 .txt文件 文件的打开与关闭 文件处理的三个步骤 打开(找到路径打开) | 打开模式 | 描述 | | : ...
分类:
其他好文 时间:
2019-08-27 19:05:39
阅读次数:
111
今天完成的任务: ①由于之前找到的豆瓣接口今天发现竟然不可以用了......,于是又花了挺长时间找了新的接口(哭了),将电视剧与综艺的模块也完成好。 这样首页就已经弄好了。 ②因为电影,电视剧,综艺这三个模块的代码过于冗余,所以决定将这个再次写成组件(我好像对这个有点上瘾了),在和组员思考和商量过后 ...
分类:
其他好文 时间:
2019-08-26 20:51:17
阅读次数:
110
今天完成的任务: (1)根据豆瓣数据等进行连接。并检查数据连接是否有错误。导入包以及数据。配制spring以及Junit。 (2)通过观察其他小程序的数据连接检查自己的问题。以及不断测试找出链接中的bug,所幸并没出现什么较大问题。 (3)和室友进行了星星的布局,主体由他完成。 第二天的计划: (1 ...
分类:
其他好文 时间:
2019-08-25 20:13:56
阅读次数:
91