码迷,mamicode.com
首页 >  
搜索关键字:豆瓣    ( 1402个结果
python实例:自动爬取豆瓣读书短评,分析短评内容
思路: 1、打开书本“更多”短评,复制链接 2、脚本分析链接,通过获取短评数,计算出页码数 3、通过页码数,循环爬取当页短评 4、短评写入到txt文本 5、读取txt文本,处理文本,输出出现频率最高的词组(前X) 通过分析得到其他结果可自由发散 用到的库: 整个脚本如下 执行结果 需要注意的是,如果 ...
分类:编程语言   时间:2019-08-31 21:26:18    阅读次数:117
python爬取豆瓣首页热门栏目详细流程
记录一下爬取豆瓣热门专栏的经过,通过这篇文章,你能学会requests,HTMLParser,json的基本使用,以及爬取网页内容的基本思路。 使用模块 1,获取豆瓣首页代码:首先我们需要访问豆瓣页面,获取首页的源码。这里推荐使用第三方库:requests,相比python内置的 urllib 模块 ...
分类:编程语言   时间:2019-08-31 17:42:10    阅读次数:114
8月30号课设个人小结(组名:double-H)
今日提交: 今天完成的任务: ①上午找了一下豆瓣评论的接口API,但是找了几个都已经禁止访问了..... ②看了一下以前写的代码,整理了一下逻辑,准备下午的答辩。 ③下午就进行了答辩。 明天的计划: ①上午之前一定要把接口给找到 ②若找到的话,下午就进行detail的数据获取和部署。 ③与组员讨论思 ...
分类:其他好文   时间:2019-08-30 19:34:12    阅读次数:77
获取豆瓣电影数据(R与API获取网页数据)
一般成熟的网站都会有反爬虫策略,例如限制访问次数,限制访问 IP,动态显示数据等。爬虫和反爬虫就是一直相爱相杀地互相钳制。如果要通过爬虫来获取某些大型网站的数据,那是一件很费时费力的活。小白总遭遇过在趟过各种坑之前就被封 IP 或封账号的打击(呜呜~说的就是我)。 不过有一些公司心怀开放互联的态度, ...
分类:Windows程序   时间:2019-08-30 18:48:59    阅读次数:837
森海塞尔是什么,我想用用看
昨日回顾: requests模块使用过 response=request。get() response。text response。content 解决字符编码问题 response。encoding=‘utf 8’ 1爬虫三部曲 发送请求 解析数据 保存数据 2爬取豆瓣电影接口 分析目标网站请求流 ...
分类:其他好文   时间:2019-08-29 21:36:35    阅读次数:123
多线程下载图片
爬虫项目介绍 本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 豆瓣Top250电影 本次爬虫项目将分别不使用多线程和使用多线程来完成,通过两者的对比,显示出多线程在爬虫项目中的巨大优势。本文所使用的多线程 ...
分类:编程语言   时间:2019-08-29 17:50:29    阅读次数:97
8月27日 课设个人小结(double-H)
当天完成的任务: (1)提交getlab代码,可从上面找到。 (2)与组员一起完成电影列表页的体现。 (3)配置一些网络爬虫的组件 第二天的计划: (1)对detail页面布局和样式与组员完成。 (2)从豆瓣进行电影网络数据爬虫。 (3)进行jdbc测试。 每日小结: 今天我和组员进行了电影页面设计 ...
分类:其他好文   时间:2019-08-27 21:13:41    阅读次数:84
基本文件处理-爬取豆瓣电影排行榜
[TOC] 文件的类型 什么是文件? 一堆.py/.txt 存储着文字信息文件, 文件的分类 二进制文件:由0、1组成,例如.png文件 文本文件:由单一特定编码组成的文件,如utf8,例如 .txt文件 文件的打开与关闭 文件处理的三个步骤 打开(找到路径打开) | 打开模式 | 描述 | | : ...
分类:其他好文   时间:2019-08-27 19:05:39    阅读次数:111
8月26号课设个人小结(组名:double-H)
今天完成的任务: ①由于之前找到的豆瓣接口今天发现竟然不可以用了......,于是又花了挺长时间找了新的接口(哭了),将电视剧与综艺的模块也完成好。 这样首页就已经弄好了。 ②因为电影,电视剧,综艺这三个模块的代码过于冗余,所以决定将这个再次写成组件(我好像对这个有点上瘾了),在和组员思考和商量过后 ...
分类:其他好文   时间:2019-08-26 20:51:17    阅读次数:110
8月25日 课设个人小结(double-H)
今天完成的任务: (1)根据豆瓣数据等进行连接。并检查数据连接是否有错误。导入包以及数据。配制spring以及Junit。 (2)通过观察其他小程序的数据连接检查自己的问题。以及不断测试找出链接中的bug,所幸并没出现什么较大问题。 (3)和室友进行了星星的布局,主体由他完成。 第二天的计划: (1 ...
分类:其他好文   时间:2019-08-25 20:13:56    阅读次数:91
1402条   上一页 1 ... 20 21 22 23 24 ... 141 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!