1.有些scrapy命令,只有在scrapyproject根目录下才available,比如crawl命令2.scrapygenspidertaobaohttp://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py#-*-coding:utf-8-*-
importscrapy
classTaobaoSpider(scrapy.Spider):
name="taobao"
all..
分类:
编程语言 时间:
2015-01-07 19:07:36
阅读次数:
324
还是上一篇博客的那个网站,我们增加了pipeline.pyitems.pyfromscrapy.itemimportItem,Field
classWebsite(Item):
name=Field()
description=Field()
url=Field()dmoz.pyfromscrapy.spiderimportSpider
fromscrapy.selectorimportSelector
fromdirbot.itemsimportWebsite
..
分类:
编程语言 时间:
2015-01-06 18:12:30
阅读次数:
391
1.任务一,抓取以下两个URL的内容,写入文件http://www.dmoz.org/Computers/Programming/Languages/Python/Books/http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/项目截图和上一个project不同的是,在spider中没有定义rules属性,而是定义了parse方法..
分类:
编程语言 时间:
2015-01-06 18:11:44
阅读次数:
314
开发环境PyCharm目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695但是这次不是在单个文件中运行,而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的基本目录结构2.编辑items.py3.在spiders目录下,新建spider1.py报错很正常我们按照scrapypr..
分类:
编程语言 时间:
2015-01-06 12:11:40
阅读次数:
277
# coding=utf-8
import urllib2
import urllib
import re
class QiuShi:
def _init_(self):
self.page = 1
# 从网页获取糗事
def GetQiuShis(self,page):
#网址
url = "http://www.qiushibaike.com/...
分类:
编程语言 时间:
2014-12-21 15:22:50
阅读次数:
279
目标:以特定语言技术为关键字,爬取八戒网中网站设计开发栏目下发布的任务相关信息需求:用户通过设置自己感兴趣的关键字或正则表达式,来过滤信息。我自己选择的是通过特定语言技术作为关键字,php、java和python。注意:如果不选用正则表达式,就会把javascript也爬进来,那前端的信息就比较多了...
分类:
编程语言 时间:
2014-12-17 22:12:52
阅读次数:
304
因为平时爱好摄影,所以喜欢看看色影无忌论坛的获奖摄影作品,所以写了个小script用来抓取上面的获奖图片,亲自测试可以使用。# -*- coding: UTF-8 -*-#作者Rocky Chen
import re, urllib, sys, os, time, urllib2, cookielib, string
class Download:
def __init__(self...
分类:
编程语言 时间:
2014-12-15 15:33:32
阅读次数:
207
1.http编程知识http中client 和server的工作模式 client和server建立可靠的tcp链接(在HTTP1.1中这个链接是长时间的,超时断开策略) client通过socket与server通信,发送request并接受response http协议是无状态的,是指每一...
分类:
编程语言 时间:
2014-12-11 11:56:24
阅读次数:
200
下面是一个 Python 爬虫最简单的例子,使用网络库urllib2 和正则表达式库re,模拟浏览器的 User-Agent。#!/usr/bin/env python# -*- coding: utf-8 -*-#引入基础网络库import urllib2#引入正则表达式模块import re#模...
分类:
编程语言 时间:
2014-12-10 19:46:40
阅读次数:
248