码迷,mamicode.com
首页 >  
搜索关键字:小爬虫    ( 153个结果
python_小爬虫
import urllib.request as requestimport urllib.parse as parseimport stringprint("""+++++++++++++++++++++++ name:cphmvp version: python3.3++++++++++++.....
分类:编程语言   时间:2014-11-06 16:36:55    阅读次数:128
Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV
这两天发现了一个叫看知乎的网站,是知乎大牛苏莉安做的,其中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫,改用 nodejs 进行实现一下,体验一下强大的 Node.js。如果之前没有用过 JavaScript,不妨到 http://www.codecademy.com/  做一下 JavaScript 和 jQuery 的入门练习,快速熟悉一下基本语法,有其他语言基础的话一天时间足够。对其有基本的了解后,就会发现 JavaScript 的两大特点:使用基于原型(prototype)的方式来...
分类:Web程序   时间:2014-10-23 22:43:19    阅读次数:305
【Python项目】配合爱漫画爬取漫画脚本而设计的GUI漫画阅读器 (一)
博客园的第一个坑,想想都有点小激动 =3=首先是那个爬虫的地址:【原创】最近写的一个比较hack的小爬虫选择工具:以前用过Qt,那么选pyqt4也就是情理之中了。明确需求:0、首先,要读取漫画的全部章节进来,同时能选择相应的章节。1、其次,进入相应的章节后,显示该章节的图片,同时有“下一页”、“上一...
分类:编程语言   时间:2014-10-17 01:41:13    阅读次数:370
【原创】最近写的一个比较hack的小爬虫
目标:爬取爱漫画上面自己喜欢的一个漫画分析阶段:0、打开爱漫画主页,迎面就是一坨js代码。。直接晕了1、经过抓包和对html源码的分析,可以发现爱漫画通过另外一个域名发送图片,而当前域名中通过js动态生成图片的文件名。问题就在这里了,首先,图片的文件命名模式比较多,没办法通过js源码直接爬;其次,有...
分类:其他好文   时间:2014-10-15 20:42:11    阅读次数:252
小爬虫,抓取某贴吧内所有帖子的图片
#!/usr/bin/env python#-*- coding:utf8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')import urllib,urllib2import refrom bs4 import BeautifulSoup...
分类:其他好文   时间:2014-09-23 13:35:14    阅读次数:194
python 小爬虫的各种总结(一)
python真是一门非常优秀的语言,非常适合初学者,也非常适合写一些原型程序。这篇文章总结了下以前做的各种和网络相关的东西:自动登录、提取信息、模拟点击、模拟上传、取号等等,多亏了python才使世界变得那么美好! 本次我们主要是模拟浏览器下载网页,学会了下载网页其他的下载图片什么的都是一样的套路。...
分类:编程语言   时间:2014-09-16 21:48:21    阅读次数:310
一只从百度开始不断搜索的小爬虫
这是我第三天学python了,想写一个东西纪念一下吧,于是写了一直爬虫,但是不是好的虫,只能讲网页的关键词存到本地,但是我觉得基本上算是一只小虫了文中用到了BeautifulSoup这个库,目的是处理html文档分析的,因为我只是提取了title的关键字,所以可以用正则表达式代替,还有一个库是jie...
分类:其他好文   时间:2014-09-09 17:55:09    阅读次数:229
python的小爬虫的基本写法
1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').read()-2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2proxy_support = url...
分类:编程语言   时间:2014-09-01 12:07:13    阅读次数:210
Python小爬虫-自动下载三亿文库文档
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享。 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl =.....
分类:编程语言   时间:2014-07-12 13:28:16    阅读次数:385
Python 基础学习 网络小爬虫
Python 基础学习 网络小爬虫...
分类:编程语言   时间:2014-07-04 08:09:50    阅读次数:244
153条   上一页 1 ... 13 14 15 16 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!