搜索关键字：python、爬虫，搜索到2294个结果！码迷,mamicode.com！

python爬虫----（scrapy框架提高（1），自定义Request爬取）

最近看scrappy0.24官方文档看的正心烦的时候，意外发现中文翻译0.24文档，简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/ ????结合官方文档例子，简单整理一下： import?scrapy from...

分类：编程语言时间：2014-11-10 18:17:09 阅读次数：251

Python爬虫（一）

花了四天的时间用python写了个简单的爬虫程序。整个过程分为两个部分：工具的安装和程序的实现本文并没有讲程序的详细实现遇到的问题，而是对着手前一些前期的准备第一部分（工具的安装）开发工具的下载安装MySql + MySQLWorkbench +PyCharm （可參考）第二部分（程序实现部分）ma...

分类：编程语言时间：2014-11-02 18:09:31 阅读次数：230

网页解析正则表达式

在写爬虫的过程中，最麻烦的就是写正则表达式，还要一个一个的尝试，一次次的调试，很是费时间。于是我就写了一个网页版的，只需要输入要爬的网址，和正则式，网页上就可以显示爬到的数据。思路：其实很简单，将网址和正则式传到服务器，服务器解析之后，将结果返回到前端。我用的是bootcss(前端)+bottle(后台用python处理)，代码很简单，就是过程有些复杂。由于传递的参数是一个网址，而后台判断参数...

分类：Web程序时间：2014-10-29 10:55:52 阅读次数：239

一个简单的Python爬虫

写了一个抓taobao图片的爬虫，全是用if，for，while写的，比较简陋，入门作品。从网页http://mm.taobao.com/json/request_top_list.htm?type=0&page=中提取taobao模特的照片。# -*- coding: cp936 -*-impor...

分类：编程语言时间：2014-10-26 13:02:32 阅读次数：151

python爬虫

说起爬虫你一定想起：Scrapy，没用过这个东西，不过从Google，看起来很专业的，由于工作需要，偶尔也会从网上抓取一些数据，之前用的是beautifulsoup，我这个人其实也有点强迫症，一定要知道范围，优劣，那么问题来了？两个东西的范围是什么？以及那个更好？直接Google你可以得到答案原来是...

分类：编程语言时间：2014-10-15 13:11:10 阅读次数：164

python下载在线阅读盗墓笔记小说的脚本

最近闲着没事想看小说，找到一个全是南派三叔的小说的网站，决定都下载下来看看，于是动手，在很多QQ群里高手的帮助下（本人正则表达式很烂，程序复杂的正则都是一些高手指导的），花了三四天写了一个脚本需要 BeautifulSoup 和 requests 两个库（我已经把注释写得尽量详细）这个程序的执行速度很慢，求高手告诉我优化的方法！！ #-*-coding:utf8-*- from...

分类：编程语言时间：2014-10-14 15:47:19 阅读次数：227

python 批量下载美剧 from 人人影视 HR-HDTV

本人比较喜欢看美剧，尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧，这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接，并按照先后顺序写入到文本文件。这个 python 爬虫比较短，就用到了 urllib.request 和 re 这两个模块，前者负责抓取网页，后者负责解析文本。想进一步加强爬虫的功能，可以用爬虫框架 Scrapy。还有就是，网页内容多是 javascript 生成，就需要一个 js 引擎了，PyV8 可以拿来试试，再有就是基于 js 的爬虫...

分类：编程语言时间：2014-10-11 22:03:36 阅读次数：344

用python爬虫抓站的一些技巧总结

1.[代码]最基本的抓站 ?12import urllib2content = urllib2.urlopen('http://XXXX').read()2.[代码]使用代理服务器 ?12345import urllib2proxy_support = urllib2.ProxyHandler({'...

分类：编程语言时间：2014-10-10 19:32:24 阅读次数：226

mac下使用scrapy时出现的raise DistributionNotFound(req)异常的处理方法

在os x下，安装完python爬虫框架scrapy后，使用scrapy startproject tutorial新建scrapy项目时，出现以下问题：Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5,....

分类：其他好文时间：2014-10-06 12:32:50 阅读次数：412

python爬虫_某桌面壁纸网站所有图片

#! /usr/bin/env python#coding=utf-8# by chuxing 2014/10/1# qq:121866673from os.path import dirname, abspathfrom extract import extract,extract_allimpo...

分类：编程语言时间：2014-10-01 21:46:21 阅读次数：273

共2294条上一页 1 ... 223 224 225 226 227 ... 230 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)