搜索关键字：数据抓取，搜索到297个结果！码迷,mamicode.com！

新浪微博POI点签到数据及可视化的初步成果

目前仅对山东省区域进行了抓取，权限不够高，抓取的速度非常慢，所以导致效率比较低。。。数据抓取采用调用微博开放平台API的方法，数据存储采用mysql，格点数据分辨率为30″，山东省的MBR范围内（包含河北、河南、江苏部分区域）的POI点约为73w个，总签到次数超过835w次。基本与预想结果一致，期待...

分类：其他好文时间：2015-02-01 21:53:21 阅读次数：391

记一次简单的网页数据抓取

之前有一个工作是到服务器上去复制一串文字下来，很简单的操作，但是需要重复50次左右，每次花费大概三分钟，一遍下来两个多小时就进去了。因此就做了这个工具自动抓取数据。工具主要做三件事情：登陆，下载，截取。登陆部分由于服务器使用的是windows安全校验，如图：需要模拟登陆才能获取到网页数据。首先用fi...

分类：Web程序时间：2015-01-27 11:01:15 阅读次数：274

ant编译apache-nutch-2.2.1结合mysql实现爬虫的安装配置全过程

之前的数据抓取都是用的八爪鱼软件，老大突发奇想要我自己搞个爬虫来抓取数据，网上找找貌似apache的nutch比较合适，于是就开始安装这啥nutch。对于一个linux零基础的人来说，还要先学学linux，大致了解了ssh连接工具怎么用后就开始正事了。了解到从nutch2开始，源码就必须要自己编....

分类：数据库时间：2015-01-26 19:00:26 阅读次数：1393

【scrapy】学习Scrapy入门

Scrapy介绍 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加...

分类：其他好文时间：2015-01-25 18:16:58 阅读次数：212

Html Agility Pack解析HTML页

文章来源：Html Agility Pack解析HTML页现在，在不少应用场合中都希望做到数据抓取，特别是基于网页部分的抓取。其实网页抓取的过程实际上是通过编程的方法，去抓取不同网站网页后，再进行分析筛选的过程。比如，有的比较购物网站，会同时去抓取不同购物网站的数据并将其保存在数据库中。一般，这些...

分类：Web程序时间：2015-01-23 18:01:53 阅读次数：247

大数据抓取采集框架(摘抄至http://blog.jobbole.com/46673/)

摘抄至http://blog.jobbole.com/46673/随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项...

分类：Web程序时间：2015-01-16 18:26:13 阅读次数：601

pylibcurl之https搜索引擎之网络数据抓取小例子，302moved?google搜索引擎不让你抓搜索结果？？ok，此文问题通通解决

pylibcurl之https搜索引擎之网络数据抓取小例子，302moved?google搜索引擎不让你抓搜索结果？？ok，此文问题通通解决...

分类：Web程序时间：2015-01-09 19:25:40 阅读次数：144

python自然语言处理1——从网络抓取数据

Python网络爬虫简明教程通过本教程可以快速了解网络爬虫过程，对一般性数据抓取有启发意义。...

分类：编程语言时间：2015-01-06 23:09:10 阅读次数：484

【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取

打算做个自己在博客园的博客APP，首先要能访问首页获取数据获取首页的文章列表，第一步抓取博客首页文章列表内容的功能已实现，在小米2S上的效果图如下：思路是：通过编写的工具类访问网页，获取页面源代码，通过正则表达式得到匹配的数据进行处理显示到ListView上简单说明下要点：1. 使用Apache H...

分类：移动开发时间：2015-01-04 13:29:54 阅读次数：165

【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取

打算做个自己在博客园的博客APP，首先要能访问首页获取数据获取首页的文章列表，第一步抓取博客首页文章列表内容的功能已实现，在小米2S上的效果图如下：思路是：通过编写的工具类访问网页，获取页面源代码，通过正则表达式得到匹配的数据进行处理显示到ListView上简单说明下要点：1. 使用Apache H...

分类：移动开发时间：2014-12-31 18:08:22 阅读次数：165