前言:
爬取普通的文本网页非常容易,但爬取Silverlight的网页代码时,有时候可能会加密。这样就会很麻烦了。下面就爬取网站http://zx.bjmemc.com.cn/ (北京空气质量网)进行说明。
任务:
网站http://zx.bjmemc.com.cn/显示的内容如下图所示。我们的任务就是将空气质量数据抓取下来。
工具:
1、fiddler,http://www....
分类:
Windows程序 时间:
2015-02-28 20:22:02
阅读次数:
2170
ip_spider.py= = =#!/usr/bin/python# coding: utf-8import osimport sysimport requestsimport reimport urllibimport sysreload(sys)sys.setdefaultencoding( ...
分类:
其他好文 时间:
2015-02-28 15:57:27
阅读次数:
104
经常性的看到在一些电商网站上的 搜索关键词记录,被其他网站给爬取到。然后去判断用户的行为习惯,作一些 乱七八糟的相关商品推荐或者
广告。不得不说,确实做的很人性化,这是怎么实现的。怎么获取到用户的搜索记录。
采用的是客户端的cookie,通过客户端的cookie记录用户经常搜索的关键字,然后就可以从用户经常搜索的关键字来
判断用户的兴趣。先看一下怎么设置用户查询。cookie在用户电脑中是以一种类似map键值对的形式存放,且只能存放字符串类型的对
象。通过response对象 增加cookie,...
分类:
其他好文 时间:
2015-02-28 14:43:23
阅读次数:
180
什么是网络爬虫?这是百度百科的解释: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
爬虫可以做什么?爬虫可以帮助我们在茫茫互联网中爬取我们需...
分类:
编程语言 时间:
2015-02-25 06:57:01
阅读次数:
709
0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具
1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。...
分类:
其他好文 时间:
2015-02-23 13:11:29
阅读次数:
156
外链和软文对于网络推广的重要性 众所周知,对于一个新上线的网站来说,首先要做的是,向搜索引擎提交你的站点,这个是最基本的方法,也是最快让搜索引擎知道你,并收录的一个捷径,但是也有不少网站,在还没弄好之前,可能蜘蛛就来爬取网站了,如果后期的改动对网站还是有影响的,所以在上线之前要做好准备工作。 ...
分类:
其他好文 时间:
2015-02-12 18:24:31
阅读次数:
129
如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel...
分类:
Web程序 时间:
2015-02-11 14:37:34
阅读次数:
274
导读:Java多线程开发给程序带来好处的同时,由于多线程程序导致的问题也越来越多,而且对问题的查找和分析解决对于菜鸟程序原来是是件头疼的事。下面我就项目中使用多线程开发程序过程中遇到的问题做详细的分析和解决思路的分享。本人也属菜鸟,忘大神指点。项目描述:工作中要编写一份程序用于爬取某某网站上的大量图...
分类:
编程语言 时间:
2015-02-10 18:38:45
阅读次数:
215
一、提交 对于一个新上线的网站来说,首先要做的是,向搜索引擎提交你的站点,这个是最基本的方法,也是最快让搜索引擎知道你,并收录的一个捷径. 但是也有不少网站,在还没弄好之前,可能蜘蛛就来爬取网站了,如果后期的改动对网站还是有影响的,所以在上线之前要做好准备工作。 具体什么时候提交,是...
分类:
Web程序 时间:
2015-02-09 17:48:07
阅读次数:
143
摘要 之前一直使用默认的parse入口,以及SgmlLinkExtractor自动抓取url。但是一般使用的时候都是需要自己写具体的url抓取函数的。 python 爬虫 scrapy scrapy提高 最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直...
分类:
编程语言 时间:
2015-02-04 09:16:30
阅读次数:
1361