这次我以爬新浪微博为例,这个过程太纠结了,参考了好多大神的帖子,不过还是遗留了很多问题,我们慢慢来看,希望大神帮于指正,我的方法暂时来说还是比较挫的 ????????登陆问题 ????????爬新浪微...
分类:
Web程序 时间:
2015-09-01 15:25:48
阅读次数:
1075
什么是HtmlUnit HtmlUnit是一个开源的浏览器模拟工具,可以方便我们模拟浏览器的行为,例如打开网页,提交表单等,这样我们可以用他来爬网页 官网下载:http://htmlunit.sourceforge.net/? java API:http://ht...
分类:
Web程序 时间:
2015-08-31 12:00:15
阅读次数:
1064
思考的问题:怎么在一个网页的div中嵌套另外的网页(不使用inclue,iframe和frame,不使用他们的原因,include只能嵌套静态网页,iframe对网络爬虫影响,frame嵌套网页无法获取父级页面信息,不够灵活)如果不想嵌套整个网页怎么办?(只是嵌套另外页面的部分内容)回答(想法):使...
分类:
Web程序 时间:
2015-08-30 22:59:15
阅读次数:
204
学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本
说人话就是正则表达式太难了,博主学不会!
本篇只介绍Beautiful Soup的使用,不涉及安装、配置。
Beautiful So...
分类:
编程语言 时间:
2015-08-29 18:49:20
阅读次数:
211
最近被网络爬虫中的去重策略所困扰。使用一些其他的“理想”的去重策略,不过在运行过程中总是会不太听话。不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一种方法。...
分类:
Web程序 时间:
2015-08-25 23:49:05
阅读次数:
212
引言 Python 的Web 应用:简单的Web 客户端 urlparse 和 urllib 模块 高级的 Web 客户端 网络爬虫/蜘蛛/机器人 CGI:帮助 Web 服务器处理客户端数据 创建 CGI 应用程序 在 CGI 中使用Unicode 高级 CGI...
分类:
编程语言 时间:
2015-08-21 19:17:51
阅读次数:
408
Python入门网络爬虫之精华版Python学习网络爬虫主要分3个大的版块:抓取,分析,存储
另外,比较常用的爬虫框架Scrapy,这里最后也介绍一下。
先列举一下相关参考:宁哥的小站-网络爬虫 抓取这一步,你要明确要得到的内容是是什么?是HTML源码,还是Json格式的字符串等等。 1. 最基本的抓取一般属于get请求情况,直接从服务器上获取数据。
首先,Python中自带urllib及...
分类:
编程语言 时间:
2015-08-19 13:22:48
阅读次数:
220
经过前面两篇文章,你想大家应该已经知道网络爬虫是怎么一回事了。这篇文章会在之前做过的事情上做一些改进,以及说明之前的做法的不足之处。...
分类:
编程语言 时间:
2015-08-17 19:34:34
阅读次数:
309
最近园子里网络爬虫很火爆,从PHP到Python,从windows服务到winform程序,各路大神各显神通。小弟也献下丑,从平庸流出发,简述下 WebApi +AngularJS方式实现网络爬虫。一、技术框架1.1 前端:AngularJS,创建SPA(单页面应用)。爬虫需要长时间的等待服务器返回...