很久没有写博客了,这段时间一直在搞风控的东西,过段时间我把风控的内容整理整理发出来大家一起研究研究。 这两天抽空写了两个python爬虫脚本,一个使用re,一个使用xpath。 直接上代码——基于re: spider.py tool.py ...
分类:
编程语言 时间:
2017-04-13 14:55:36
阅读次数:
314
来源: https://baijiahao.baidu.com/po/feed/share?wfr=spider&for=pc&context=%7B%22sourceFrom%22%3A%22bjh%22%2C%22nid%22%3A%22news_3329472686031518630%22%7 ...
分类:
其他好文 时间:
2017-04-13 00:53:32
阅读次数:
180
#-*- coding:utf-8 -*- import re import requests class Spider: #页面初始化 def __init__(self): self.url = 'http://gz.meituan.com/category/meishi?mtt=1.index ...
分类:
其他好文 时间:
2017-04-12 12:23:17
阅读次数:
228
前言:前面几节分别介绍了下C#基础技术中的反射、特性、泛型、序列化、扩展方法、Linq to Xml等,这篇跟着来介绍下C#的另一基础技术的使用。最近项目有点紧张,所以准备也不是特别充分。此篇就主要从博主使用过的几种多线程的用法从应用层面大概介绍下。文中观点都是博主个人的理解,如果有不对的地方望大家 ...
分类:
编程语言 时间:
2017-04-09 11:55:12
阅读次数:
277
在spider类中有三个方法可以初始化startRequests。可以对这些地方进行扩展。 ...
分类:
Web程序 时间:
2017-04-07 00:30:36
阅读次数:
168
按照网上的教程学习python,最开始的dmoz_spider项目一直不能正常运行,一直出现下面的问题: 即http status code is not handled or allowed http状态代码没有被处理或允许, 一开始我不理解,在网上找了好多修改setting.py中的 DOWNL ...
分类:
编程语言 时间:
2017-04-06 01:12:22
阅读次数:
2927
首先,在items.py中定义几个字段用来保存网页数据(网址,标题,网页源码) 如下所示: 最重要的是我们的spider,我们这里的spider继承自CrawlSpider,方便我们定义正则来提示爬虫需要抓取哪些页面。 如:爬去下一页,爬去各个文章 在spdier中,我们使用parse_item方法 ...
分类:
其他好文 时间:
2017-04-02 22:51:59
阅读次数:
247
scrapy --help 查看scrapy的基本帮助信息 scrapy --varsion 查看版本信息 scrapy startproject xxx 创建一个新的工程 scrapy genspider xexe xxxx.xom 一个工程中可以有多个spider,genspider,就是在一个 ...
分类:
其他好文 时间:
2017-03-09 22:34:07
阅读次数:
233
用Scrapy做爬虫分为四步 新建项目 (Project):新建一个新的爬虫项目 明确目标(Items):明确你想要抓取的目标 制作爬虫(Spider):制作爬虫开始爬取网页 存储内容(Pipeline):设计管道存储爬取内容 上一章节做了创建项目,接着用上一次创建的项目来爬取网页 网上很多教程都是 ...
分类:
Web程序 时间:
2017-03-07 18:06:48
阅读次数:
226
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline ...
分类:
其他好文 时间:
2017-03-06 01:32:12
阅读次数:
277