如题,使用Java模拟GET和POST请求。使用GET可以实现网页抓取,使用POST可以实现对某些网站登录的暴力破解。不过仅是练习,实际意义不大。 import java.io.IOException;
import java.io.InputStream;
import java.io.Input...
分类:
编程语言 时间:
2014-11-27 17:52:53
阅读次数:
130
续上篇文章,网页抓取到手之后就是解析网页了。在Python中解析网页的库不少,我最开始使用的是BeautifulSoup,貌似这个也是Python中最知名的HTML解析库。它主要的特点就是容错性很好,能很好地处理实际生活中各种乱七八糟的网页,而且它的API也相当灵活而且丰富。但是我在自己的正文提取项...
分类:
编程语言 时间:
2014-11-15 17:00:12
阅读次数:
277
Github博文地址,此处更新可能不是很及时。
1.背景
最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构与算法。结合最近在学英语,然后干脆就用英文喽。然后选定一本参考书籍《Data Structures and Algorithms in Java》。
刚开始看还是蛮吃力的,慢慢来。由于之...
分类:
编程语言 时间:
2014-11-12 00:48:04
阅读次数:
285
需求说明:使用Java抓取网页信息,并以字符串的形式返回。 使用Java代码实现: package net.ibuluo.spider.util; import java.io.IOException;
import java.io.InputStream;
import java.io.Input...
分类:
编程语言 时间:
2014-11-07 23:13:08
阅读次数:
286
来源:http://www.ido321.com/1158.html
抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。
一、Ganon
项目地址: http://code.google.com/p/ganon/
文档: http://code.google.com/p/ganon/w/list
测试:抓取我的网站首页所有class属性值是focus的d...
分类:
Web程序 时间:
2014-11-07 22:09:41
阅读次数:
264
一个小型的网页抓取系统的架构设计
网页抓取服务是互联网中的常用服务,在搜索引擎中spider(网页抓取爬虫)是必需的核心服务。搜索引擎的衡量指标“多、快、准、新”四个指标中,多、快、新都是对spider的要求。搜索引擎公司比如google、baidu都维护者自己负责的spider系统。当然他们的系统很复杂,在这里我们介绍一个小型的网页抓取系统的架构,目标是快速的抓取某个或者...
分类:
Web程序 时间:
2014-11-07 13:08:15
阅读次数:
203
版本号:Python2.7.5,Python3改动较大。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取...
分类:
编程语言 时间:
2014-10-24 01:32:31
阅读次数:
232
//网页抓取方法总结 //一、使用file_get_contents() $timeout = array( 'http'=> array( 'timeout'=>5, //设置一个超时时间,单位为秒 ) )...
分类:
Web程序 时间:
2014-10-19 11:23:45
阅读次数:
263
本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自己主动依据预设的股票代码列表,从Yahoo Finance抓取列表中的数据日期、股票名称、实时报价、当日变化率、当日最低价、当日最高价。因为Yahoo Finance的股票页面中的数值都有对应id。比如纳斯达克1...
分类:
编程语言 时间:
2014-10-09 14:23:13
阅读次数:
332
最近想在网上抓取数据做研究,刚好会一点python,就让我们来看一种比较简单的实现方法。
比如我要抓取奥巴马每周的演讲内容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html,如果手动提取,就需要一个个点进去,再复制保存,非常麻烦。
那有没有一步到位的方法呢,用python这种强大的语言就能快速实现。...
分类:
编程语言 时间:
2014-10-02 19:45:23
阅读次数:
405