当通过命令行,根据crawl模板生成spider时, 执行scrapy genspider -t crawl lagou www.lagou.com 出现如下报错(图三): 原因是项目中已有的一句代码: 就是因为命令行格式不能像pycharm那样,命令行不会把你的source root放进patho ...
分类:
其他好文 时间:
2018-05-02 18:05:49
阅读次数:
117
学习网络爬虫的目的: 1,可以私人定制一个搜索引擎,可以深层次的了解搜索引擎的工作原理。 2,大数据时代,要进行数据分析,首先要有数据源,学习爬虫,可以让我们获取更多的数据。 3,从业人员可以可好的利用爬虫,了解其原理,更加优化你的程序。 网络爬虫的组成 网络爬虫由控制节点,爬虫节点,资源库构成 爬 ...
分类:
编程语言 时间:
2018-04-13 13:19:17
阅读次数:
175
爬虫的学习相对来说,比较烦锁,因为网站的反爬规则,经过两天的研究,终于搞定了抽屉新热榜自动点赞与豆瓣自动统一短评(豆瓣登录的验证码目前需要手动输入) 抽屉网的规则问题 示例如下: 豆瓣网 ...
分类:
其他好文 时间:
2018-04-12 18:00:22
阅读次数:
340
学习目的: 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特点字符、及这些特点字符组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正式步骤 Step1:常用匹配模式 Step2:最常规的匹配 运行结果: 范匹配: .*可以把除了匹配的开头和结尾都匹配 ...
分类:
编程语言 时间:
2018-04-07 20:03:10
阅读次数:
200
上篇博客说了正则表达式,但是正则学起来比较费劲,写的时候也不好写,这次说下Beautiful Soup怎么用,这个模块是用来解析html的,它操作很简单,用起来比较方便,比正则学习起来简单多了。 这是第三方模块需要安装 1 2 3 pip install beautifulsoup4 pip ins ...
分类:
其他好文 时间:
2018-04-07 12:52:23
阅读次数:
231
PyQuery模块也是一个解析html的一个模块,它和Beautiful Soup用起来差不多,它是jquery实现的,和jquery语法差不多,会用jquery的人用起来就比较方便了。 Pyquery需要依赖lxml模块,不装的话,使用会报错。 安装 1 2 pip install lxml pi ...
分类:
其他好文 时间:
2018-04-07 12:48:14
阅读次数:
205
上篇博客里面写了,爬虫就是发http请求(浏览器里面打开发送的都是http请求),然后获取到response,咱们再从response里面找到想要的数据,存储到本地。 咱们本章就来说一下什么是http请求,它里面都有哪些东西,我们在写爬虫的时候,怎么http请求里面哪些对我们的爬虫有影响。 http ...
分类:
Web程序 时间:
2018-04-07 12:42:17
阅读次数:
142
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: 可以看到每个t对象的类型是bs4.element.Tag,也就是标签对象。 那么,如果要从每个t对象中获取a标签的内容,并把所有a标签都保存到一个列表中,该如何做? 可以使用: 接下来就可以正式编写爬 ...
分类:
编程语言 时间:
2018-04-06 14:02:33
阅读次数:
237
学习目的: MongoDB的安装 正式步骤 (VMWare 虚拟机上无法安装这个MongoDB的自启动服务,如果你能办到,请多赐教) Step1:MongoDB的简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 mongoD ...
分类:
数据库 时间:
2018-03-28 23:54:03
阅读次数:
221
import urllib.request import json content=input("请输入需要翻译的内容:") url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule' data={} data[... ...
分类:
编程语言 时间:
2018-03-10 14:12:57
阅读次数:
199