目录 一、爬一个简单的网站 二、模拟登录新浪 三、各种请求的发送 四、使用curl 五、模拟登录QQ空间 六、selenium的使用 七、phantomjs的使用 八、开源框架webmagic 九、开源框架scrapy 十、多线程爬取与反爬策略 十一、加密与解密 十二、APP数据抓取 十三、分布式爬 ...
分类:
Web程序 时间:
2018-01-19 11:28:42
阅读次数:
172
Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法 ...
分类:
其他好文 时间:
2018-01-17 00:24:05
阅读次数:
179
( ̄▽ ̄)~ 又得半夜修仙了,作为一个爬虫小白,花了3天时间写好的程序,才跑了一个月目标网站就更新了,是有点悲催,还是要只有一天的时间重构。 升级后网站的层次结构并没有太多变化,表面上是 "国家企业信用信息公示系统" 的验证码又升级了。之前是 点按后滑动拼图方式: 现在的验证码主要是按顺序点击图片汉 ...
分类:
其他好文 时间:
2018-01-15 15:29:52
阅读次数:
956
转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候由于种种原因,我们需要采集某个网站的数据,但由于不同网站对数据的显示方式略有不同! 本文就用Java给大家演示如何抓取网站的数据:(1)抓取原网页数据; ...
分类:
编程语言 时间:
2017-12-31 10:58:56
阅读次数:
154
Python中大的爬虫框架有scrapy(风格类似django),pyspider(国产python爬虫框架)。 除了Python,Java中也有许多爬虫框架。 nutch apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块 heritrix 比较成熟 地址:intern ...
分类:
编程语言 时间:
2017-12-25 00:48:42
阅读次数:
232
之前一直在研究scrapy下数据抓取,在研究ajax数据抓取时碰巧研究了一下selenium,确实很实用,不过只做scrapy下的数据抓取,不怎么合适,一是性能的损耗,一直需要开一个浏览器,二是对于爬虫来说,分析ajax的请求才是正事。好吧,说远了,今天来扯一下我对于自动化测试一些见解。 pytho ...
分类:
编程语言 时间:
2017-12-12 21:59:56
阅读次数:
244
import requests import re,json import pandas class base(): def __init__(self,url): self.url = url def all_url(self): return [self.url + "%s" % i for i... ...
分类:
其他好文 时间:
2017-12-07 20:54:43
阅读次数:
419
作为一个毕业设计、或者作为一个兴趣,往大了说作为一个事业。推荐系统从0开始构建, 确实是有很多问题需要解决,推荐系统本身涉及UI交互、线上服务、数据计算、模型构建,课 程设计或毕业设计没有数据还需要进行数据抓取,确实有许许多多知识以及工作量就是花费很 多时间。 如果是真喜欢这个事,花费时间是很值得的 ...
分类:
其他好文 时间:
2017-12-01 19:46:14
阅读次数:
172
要实现多进程爬虫的数据抓取,要用到库multiprocessing并导入Pool: 接着导入进程池 所有的程序会被放到进程池Pool()中并分配CPU。 此处用到了map函数,map函数会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函 ...
分类:
系统相关 时间:
2017-11-10 11:01:24
阅读次数:
320
组员:李玉玲 罗佩聪 一、修改功能需求分析 (一)、不足之处(1)用户模块没有考虑下载方式以及下载之后的存储格式; (2)用户模块没有具体提到下载频道的呈现方式; (3)缺少登录和注册模块的设计 (二)修改后的需求分析 1、 技术可行性分析 本系统是一个基于 Android 的多媒体资源管理系统,目 ...
分类:
其他好文 时间:
2017-11-02 19:59:25
阅读次数:
203