标签:
原文作者:西安鲲之鹏
原文链接:http://www.site-digger.com/html/articles/20120531/36.html
对于需要登录后才能进行的采集,采用共享火狐浏览器Cookie的方案好处是:不用自己在再写登录过程,直接在火狐中进行登录即可。
火狐的Cookie存储在哪儿?
这两个文件的路径在不同的操作系统(不同用户)下是不一样的,比如Win7上的路径是:C:\Users\Administrator\AppData\Roaming\Mozilla\Firefox\Profiles\d4371ep6.default。
如何使用这些Cookie数据?
读取cookies.sqlite和sessionstore.js将其转换为统一的、我们的采集程序可用的Cookie格式。
我们的采集程序采用Python编写,Python的cookielib.MozillaCookieJar()可识别的Cookie格式为:
我们的实现方案如下:
标签:
原文地址:http://my.oschina.net/webscraping/blog/519795