码迷,mamicode.com
首页 >  
搜索关键字:网页抓取    ( 184个结果
Python网页抓取2
#!coding:utf-8# 获取web页面import sys,urllib2req=urllib2.Request(sys.argv[1])fd=urllib2.urlopen(req)while 1: data=fd.read() if not len(data): ...
分类:编程语言   时间:2014-09-29 16:42:11    阅读次数:165
Python网页抓取
#coding:utf-8import urllib #导入模块print dir(urllib) #查看urllib方法print help(urllib.urlopen) #查看帮助文档url="http://www.baidu.com" #定义网址html=urllib.urlop...
分类:编程语言   时间:2014-09-29 15:33:41    阅读次数:163
Phantomjs和Casperjs,后台网页抓取和交互
var casper = require('casper').create({ verbose: true, logLevel: 'debug', pageSettings: { loadImages: false, loa...
分类:Web程序   时间:2014-09-28 15:10:22    阅读次数:208
Centos下安装Scrapy
Scrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。安装环境:centos5.4python2.7.3安装步骤:1.下载python2.7http://www.python.org/ftp/python/2.7.3...
分类:其他好文   时间:2014-09-07 18:24:45    阅读次数:317
解决Jsoup网页抓取过程中需要cookie的问题
最近在做城觅网的信息抓取,发现城觅网上海与北京的url是一样的。那怎样才确定信息的来源呢?折腾了半天,才发现城觅网是使用cookie的,如果你把网站的cookie禁用了,就无法在上海与北京之间切换了。于是便想到了请求时将cookie带上。方法如下:第一步,拿到上海或者北京的cookieMap coo...
分类:Web程序   时间:2014-08-25 20:47:24    阅读次数:247
【转】Nutch源代码研究 网页抓取 数据结构
今天我们看看Nutch网页抓取,所用的几种数据结构:主要涉及到了这几个类:FetchListEntry,Page,首先我们看看FetchListEntry类:public final class FetchListEntry implements Writable, Cloneable实现了Writ...
分类:Web程序   时间:2014-08-22 15:59:58    阅读次数:242
【转】Nutch源代码研究 网页抓取 下载插件
今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpRespon...
分类:Web程序   时间:2014-08-22 15:53:38    阅读次数:266
c++ hmtlcxx 学习之旅
最近刚网页抓取,抓取下来后需要解析,所以在网上找了一些资料,也问问我的师兄,最终结合网上的开源知识,完成了htmlcxx的使用。vs2013.首先要去下载htmlcxx:https://github.com/dhoerl/htmlcxx或者你也可以百度下去下载一个。接下来,将文件文件解压,我用vs2...
分类:编程语言   时间:2014-08-22 00:12:05    阅读次数:372
11223
通过URL去访问另一台计算机1、理解URL : HTTP协议的URL文件中的URL2、网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,然后读取服务器端的响应资源。 Java 语言是为网...
分类:其他好文   时间:2014-08-05 00:32:18    阅读次数:384
网页抓取
###-*-coding:cp936-*-###<ahref="http://home.51cto.com"target="_blank">家园</a>##importurllib##str0=‘<ahref="http://home.51cto.com"target="_blank">家园</a>‘##href=str0.find(‘<ahref‘)##printhref##com=str0.find(‘.com"‘)##printcom##ur..
分类:Web程序   时间:2014-08-04 08:21:17    阅读次数:263
184条   上一页 1 ... 15 16 17 18 19 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!