豆瓣是一个集品味系统(读书、电影、音乐)、表达系统(我读、我看、我听)和交流系统(同城、小组、友邻)于一体的创新网络服务,致力于帮助都市人群发现生活中有用的事物。今天教大家怎么通过对豆瓣里面的图书评价信息采集,找一本适合自己的书。
1.首先注册账号激活并登录
2.登陆后在八爪鱼采集软件界面左侧的菜单栏可以找到“采集规则”一项,小伙伴们可以先进入规则市场中搜索一下,自己想要采集的平台是否已经有现成的规则可借鉴。如果有,可以直接下载后导入新的任务即可使用,简单方便。
3.导入下载好的规则,编辑采集任务的名称
4.进入采集流程编辑,点击流程线上的打开网页可以修改你在豆瓣需要采集页面的URL,修改完记得点击保存
5.点击提取数据,可以对采集的文本字段名称进行修改,如图所示,完成编辑保存后进入下一步
6.完成采集规则的设置,采集方式有单机采集(只支持在本地采集,采集的数据保存在本地)和云采集(采集任务自动分配到云端多台服务器同时执行,提高采集效率,可以在短时间内采集到成千上万条信息)两种方式,选择好适合的采集方式开始采集
7.完成采集,可以将采集好的数据导出到Excell,数据库或者发布到网站
豆瓣网的采集就为大家介绍到这里,希望可以帮到大家,还有更多的采集教程可以到这个网站去学习http://www.bazhuayu.com/tutorial
1.使用单击采集采集豆瓣网的信息时容易触发豆瓣的防采集保护,所以建议使用云采集或可以采用代理IP实现IP的变换,可以参考教程http://www.bazhuayu.com/tutorial/dlipsm.aspx
2.采集不同的数据需要的规则略有不同,不懂怎么编辑规则的可以在规则市场寻找
八爪鱼采集软件下载地址:http://www.bazhuayu.com/download
本文出自 “11819980” 博客,请务必保留此出处http://11829980.blog.51cto.com/11819980/1812422
原文地址:http://11829980.blog.51cto.com/11819980/1812422