码迷,mamicode.com
首页 > 其他好文 > 详细

回顾爬虫的时候的一些小TIPS

时间:2018-01-21 19:16:15      阅读:140      评论:0      收藏:0      [点我收藏+]

标签:查询   dom   class   use   多网站   encode   模糊   path   指令   

1

json.dumps的时候默认会用ascii

所以在写入文件的时候会需要用到的指令变为json.dumps(a,ensuer_ascii=False),这样将禁止转换为ascii

然后再写入的时候用f.write(b.encode())

2

xpath做解析的时候发请求头会产生问题,因为很多网站会根据不同的浏览器返回不同的DOM结构

所以很多的时候可以用一个相对老的版本的IE的user-agent

3

xpath   / . / .. // * @ [] | [] N/A ()
jsonpath $ @ .OR[] N/A .. * N/A [] [,] ?() () N/A

4

xpath helper :ctrl+shift+x

xpath善用//div[contains(@id , ‘woshiqianbanbu_‘)]/ 模糊查询方式

回顾爬虫的时候的一些小TIPS

标签:查询   dom   class   use   多网站   encode   模糊   path   指令   

原文地址:https://www.cnblogs.com/lawliet-y/p/8324742.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!