码迷,mamicode.com
首页 >  
搜索关键字:python、爬虫    ( 2294个结果
python爬虫----(scrapy框架提高(1),自定义Request爬取)
最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/ ????结合官方文档例子,简单整理一下: import?scrapy from...
分类:编程语言   时间:2014-11-10 18:17:09    阅读次数:251
Python爬虫(一)
花了四天的时间用python写了个简单的爬虫程序。整个过程分为两个部分:工具的安装和程序的实现本文并没有讲程序的详细实现遇到的问题,而是对着手前一些前期的准备第一部分(工具的安装)开发工具的下载安装MySql + MySQLWorkbench +PyCharm (可參考)第二部分(程序实现部分)ma...
分类:编程语言   时间:2014-11-02 18:09:31    阅读次数:230
网页解析正则表达式
在写爬虫的过程中,最麻烦的就是写正则表达式,还要一个一个的尝试,一次次的调试,很是费时间。于是我就写了一个网页版的,只需要输入要爬的网址,和正则式,网页上就可以显示爬到的数据。 思路:其实很简单,将网址和正则式传到服务器,服务器解析之后,将结果返回到前端。我用的是bootcss(前端)+bottle(后台用python处理),代码很简单,就是过程有些复杂。由于传递的参数是一个网址,而后台判断参数...
分类:Web程序   时间:2014-10-29 10:55:52    阅读次数:239
一个简单的Python爬虫
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品。从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片。# -*- coding: cp936 -*-impor...
分类:编程语言   时间:2014-10-26 13:02:32    阅读次数:151
python爬虫
说起爬虫你一定想起:Scrapy,没用过这个东西,不过从Google,看起来很专业的,由于工作需要,偶尔也会从网上抓取一些数据,之前用的是beautifulsoup,我这个人其实也有点强迫症,一定要知道范围,优劣,那么问题来了?两个东西的范围是什么?以及那个更好?直接Google你可以得到答案原来是...
分类:编程语言   时间:2014-10-15 13:11:10    阅读次数:164
python下载在线阅读盗墓笔记小说的脚本
最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本 需要 BeautifulSoup 和 requests 两个库 (我已经把注释写得尽量详细) 这个程序的执行速度很慢,求高手告诉我优化的方法!! #-*-coding:utf8-*- from...
分类:编程语言   时间:2014-10-14 15:47:19    阅读次数:227
python 批量下载美剧 from 人人影视 HR-HDTV
本人比较喜欢看美剧,尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接,并按照先后顺序写入到文本文件。这个 python 爬虫比较短,就用到了 urllib.request 和 re 这两个模块,前者负责抓取网页,后者负责解析文本。想进一步加强爬虫的功能,可以用爬虫框架 Scrapy。还有就是,网页内容多是 javascript 生成,就需要一个 js 引擎了,PyV8 可以拿来试试,再有就是基于 js 的爬虫...
分类:编程语言   时间:2014-10-11 22:03:36    阅读次数:344
用python爬虫抓站的一些技巧总结
1.[代码]最基本的抓站 ?12import urllib2content = urllib2.urlopen('http://XXXX').read()2.[代码]使用代理服务器 ?12345import urllib2proxy_support = urllib2.ProxyHandler({'...
分类:编程语言   时间:2014-10-10 19:32:24    阅读次数:226
mac下使用scrapy时出现的raise DistributionNotFound(req)异常的处理方法
在os x下,安装完python爬虫框架scrapy后,使用scrapy startproject tutorial新建scrapy项目时,出现以下问题:Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5,....
分类:其他好文   时间:2014-10-06 12:32:50    阅读次数:412
python爬虫_某桌面壁纸网站所有图片
#! /usr/bin/env python#coding=utf-8# by chuxing 2014/10/1# qq:121866673from os.path import dirname, abspathfrom extract import extract,extract_allimpo...
分类:编程语言   时间:2014-10-01 21:46:21    阅读次数:273
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!