import urllib.request as requestimport urllib.parse as parseimport stringprint("""+++++++++++++++++++++++ name:cphmvp version: python3.3++++++++++++.....
分类:
编程语言 时间:
2014-11-06 16:36:55
阅读次数:
128
这两天发现了一个叫看知乎的网站,是知乎大牛苏莉安做的,其中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫,改用 nodejs 进行实现一下,体验一下强大的 Node.js。如果之前没有用过 JavaScript,不妨到 http://www.codecademy.com/ 做一下 JavaScript 和 jQuery 的入门练习,快速熟悉一下基本语法,有其他语言基础的话一天时间足够。对其有基本的了解后,就会发现 JavaScript 的两大特点:使用基于原型(prototype)的方式来...
分类:
Web程序 时间:
2014-10-23 22:43:19
阅读次数:
305
博客园的第一个坑,想想都有点小激动 =3=首先是那个爬虫的地址:【原创】最近写的一个比较hack的小爬虫选择工具:以前用过Qt,那么选pyqt4也就是情理之中了。明确需求:0、首先,要读取漫画的全部章节进来,同时能选择相应的章节。1、其次,进入相应的章节后,显示该章节的图片,同时有“下一页”、“上一...
分类:
编程语言 时间:
2014-10-17 01:41:13
阅读次数:
370
目标:爬取爱漫画上面自己喜欢的一个漫画分析阶段:0、打开爱漫画主页,迎面就是一坨js代码。。直接晕了1、经过抓包和对html源码的分析,可以发现爱漫画通过另外一个域名发送图片,而当前域名中通过js动态生成图片的文件名。问题就在这里了,首先,图片的文件命名模式比较多,没办法通过js源码直接爬;其次,有...
分类:
其他好文 时间:
2014-10-15 20:42:11
阅读次数:
252
#!/usr/bin/env python#-*- coding:utf8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')import urllib,urllib2import refrom bs4 import BeautifulSoup...
分类:
其他好文 时间:
2014-09-23 13:35:14
阅读次数:
194
python真是一门非常优秀的语言,非常适合初学者,也非常适合写一些原型程序。这篇文章总结了下以前做的各种和网络相关的东西:自动登录、提取信息、模拟点击、模拟上传、取号等等,多亏了python才使世界变得那么美好! 本次我们主要是模拟浏览器下载网页,学会了下载网页其他的下载图片什么的都是一样的套路。...
分类:
编程语言 时间:
2014-09-16 21:48:21
阅读次数:
310
这是我第三天学python了,想写一个东西纪念一下吧,于是写了一直爬虫,但是不是好的虫,只能讲网页的关键词存到本地,但是我觉得基本上算是一只小虫了文中用到了BeautifulSoup这个库,目的是处理html文档分析的,因为我只是提取了title的关键字,所以可以用正则表达式代替,还有一个库是jie...
分类:
其他好文 时间:
2014-09-09 17:55:09
阅读次数:
229
1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').read()-2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2proxy_support = url...
分类:
编程语言 时间:
2014-09-01 12:07:13
阅读次数:
210
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享。 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl =.....
分类:
编程语言 时间:
2014-07-12 13:28:16
阅读次数:
385