1.数据存储到JSon:程序阅读一般都是使用更方便的Json或者cvs等待格式,继续讲解Scrapy爬虫的保存方式,也就是继续对pipelines.py文件动手脚 (1)创建pipelines2json.py文件: (2)修改Settings.py文件,将pipelines2json加入到ITEM_ ...
分类:
编程语言 时间:
2017-08-05 15:33:38
阅读次数:
278
1.项目准备:网站地址:http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫: scrapy startproject weather scrapy genspider HQUSpider quanzhou.tianqi.com 项目文件结构如图: 3.修改Items ...
分类:
编程语言 时间:
2017-08-04 21:27:44
阅读次数:
222
爬取前的准备: BeautifulSoup的导入:pip install BeautifulSoup4 requests的导入:pip install requests 下载jupyter notebook:pip install jupyter notebook 下载python,配置环境(可使用 ...
分类:
编程语言 时间:
2017-07-29 23:14:38
阅读次数:
566
1.动态网页指几种可能: 1)需要用户交互,如常见的登录操作; 2)网页通过js / AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<divid="test"><span>aaa</span></div>; 3)点击输入关键字后进行查询,而浏览器url地 ...
分类:
编程语言 时间:
2017-07-28 22:24:31
阅读次数:
283
1.windows下安装scrapy:cmd命令行下:cd到python的scripts目录,然后运行pip install 命令 然后pycharmIDE下就有了Scrapy: 2.Scrapy选择器和XPath和CSS:通过特定的XPath或者CSS表达式来选择HTML文件中的某个部分 (1)X ...
分类:
编程语言 时间:
2017-07-26 20:26:56
阅读次数:
168
1.urllib2修改header: (1)在使用网络爬虫时,有一些站点不喜欢被程序访问(非人为访问),会检查连接者的“身份证”;默认情况下,urllib2把自己的版本号Python-urllib2/x.y作为自己的“身份证号码”来通过检查,这个身份证号码可能会让站点有点迷惑,或者干脆不工作 (2) ...
分类:
编程语言 时间:
2017-07-24 21:33:21
阅读次数:
255
1.九九乘法表: 2.斐波那契数列:又称黄金分割数列(兔子数列):0,1,1,2,3,5,8,13,21,34..... 递归的方式定义:F(0)=0,F(1)=1,F(n)=F(n-1)+F(n-2) 最正统的方法就是函数递归了,不过,Python而言,独有的数据类型--列表,可以使用append ...
分类:
编程语言 时间:
2017-07-22 23:52:23
阅读次数:
347
1.if else 语句:非此即彼 if 判断条件1: 执行语句1 elif 判断条件2: 执行语句2 elif 判断条件3: 执行语句3 else: 执行语句4 编写一个testIfRamainder7.py 熟悉一下if语句: 2.有限循环 for: for Var in Sequence: 执 ...
分类:
编程语言 时间:
2017-07-19 23:37:29
阅读次数:
389
1.Python变量类型: (1)数字 int类型:有符号整数,就是C语言中所指的整型,也就是数学中的整数,它的大小与安装的解释器的位数有关 查看当前系统下的Int最大值: 与C语言不同,Python给变量赋值时不需要预先声明变量类型,也就是说在给变量赋值时小于2147483647的数字默认认为是i ...
分类:
编程语言 时间:
2017-07-17 23:55:00
阅读次数:
245
在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片。 ...
分类:
编程语言 时间:
2017-06-26 22:34:04
阅读次数:
234