目前仅对山东省区域进行了抓取,权限不够高,抓取的速度非常慢,所以导致效率比较低。。。数据抓取采用调用微博开放平台API的方法,数据存储采用mysql,格点数据分辨率为30″,山东省的MBR范围内(包含河北、河南、江苏部分区域)的POI点约为73w个,总签到次数超过835w次。基本与预想结果一致,期待...
分类:
其他好文 时间:
2015-02-01 21:53:21
阅读次数:
391
之前有一个工作是到服务器上去复制一串文字下来,很简单的操作,但是需要重复50次左右,每次花费大概三分钟,一遍下来两个多小时就进去了。因此就做了这个工具自动抓取数据。工具主要做三件事情:登陆,下载,截取。登陆部分由于服务器使用的是windows安全校验,如图:需要模拟登陆才能获取到网页数据。首先用fi...
分类:
Web程序 时间:
2015-01-27 11:01:15
阅读次数:
274
之前的数据抓取都是用的八爪鱼软件,老大突发奇想要我自己搞个爬虫来抓取数据,网上找找貌似apache的nutch比较合适,于是就开始安装这啥nutch。 对于一个linux零基础的人来说,还要先学学linux,大致了解了ssh连接工具怎么用后就开始正事了。了解到从nutch2开始,源码就必须要自己编....
分类:
数据库 时间:
2015-01-26 19:00:26
阅读次数:
1393
Scrapy介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
分类:
其他好文 时间:
2015-01-25 18:16:58
阅读次数:
212
文章来源:Html Agility Pack解析HTML页 现在,在不少应用场合中都希望做到数据抓取,特别是基于网页部分的抓取。其实网页抓取的过程实际上是通过编程的方法,去抓取不同网站网页后,再进行分析筛选的过程。比如,有的比较购物网站,会同时去抓取不同购物网站的数据并将其保存在数据库中。一般,这些...
分类:
Web程序 时间:
2015-01-23 18:01:53
阅读次数:
247
摘抄至http://blog.jobbole.com/46673/随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项...
分类:
Web程序 时间:
2015-01-16 18:26:13
阅读次数:
601
pylibcurl之https搜索引擎之网络数据抓取小例子,302moved?google搜索引擎不让你抓搜索结果??ok,此文问题通通解决...
分类:
Web程序 时间:
2015-01-09 19:25:40
阅读次数:
144
Python网络爬虫简明教程 通过本教程可以快速了解网络爬虫过程,对一般性数据抓取有启发意义。...
分类:
编程语言 时间:
2015-01-06 23:09:10
阅读次数:
484
打算做个自己在博客园的博客APP,首先要能访问首页获取数据获取首页的文章列表,第一步抓取博客首页文章列表内容的功能已实现,在小米2S上的效果图如下:思路是:通过编写的工具类访问网页,获取页面源代码,通过正则表达式得到匹配的数据进行处理显示到ListView上简单说明下要点:1. 使用Apache H...
分类:
移动开发 时间:
2015-01-04 13:29:54
阅读次数:
165
打算做个自己在博客园的博客APP,首先要能访问首页获取数据获取首页的文章列表,第一步抓取博客首页文章列表内容的功能已实现,在小米2S上的效果图如下:思路是:通过编写的工具类访问网页,获取页面源代码,通过正则表达式得到匹配的数据进行处理显示到ListView上简单说明下要点:1. 使用Apache H...
分类:
移动开发 时间:
2014-12-31 18:08:22
阅读次数:
165