码迷,mamicode.com
首页 > 编程语言 > 详细

python分布式爬虫搭建开发环境(二)

时间:2017-10-08 13:36:21      阅读:247      评论:0      收藏:0      [点我收藏+]

标签:开发环境   path   字母   sele   style   正则表达   十倍   css   erb   

scrapy 优势:

  1. resquests和Beautifulsoup都是库,scrapy是框架
  2. scrapy框架可以加入前两项
  3. scrapy基于twisted,性能是最大的优势
  4. scrapy方便扩展,提供很多内置功能
  5. 内置的css和xpath selector非常方便,比Beautifulsoup快几十倍

常见类型网页:静态网页 动态网页 、 webserbice(restapi)


 

正则表达式: 

  1.   以xx开头   $  以xx结尾   *  0次以及以上1次及以上  + 一次及以上 {} n次 {m,}  m次以上 {m,n}  n次m  |  或
  2. [] 或   [^]  不是这个开头   [a-z]  a-z任意选一个  .
  3. \s  空格字符 \S  飞空格字符 \w 字母  \W  非字母
  4. [\u4e00-\u9FA5] 中文  ()  取括号也表示优先级和元祖  \d  数字 

python分布式爬虫搭建开发环境(二)

标签:开发环境   path   字母   sele   style   正则表达   十倍   css   erb   

原文地址:http://www.cnblogs.com/Mjonj/p/7637080.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!