搜索关键字：网页抓取，搜索到184个结果！码迷,mamicode.com！

Python网页抓取2

＃!coding:utf-8＃获取web页面import sys,urllib2req=urllib2.Request(sys.argv[1])fd=urllib2.urlopen(req)while 1: data=fd.read() if not len(data): ...

分类：编程语言时间：2014-09-29 16:42:11 阅读次数：165

Python网页抓取

#coding:utf-8import urllib #导入模块print dir(urllib) #查看urllib方法print help(urllib.urlopen) #查看帮助文档url="http://www.baidu.com" #定义网址html=urllib.urlop...

分类：编程语言时间：2014-09-29 15:33:41 阅读次数：163

Phantomjs和Casperjs，后台网页抓取和交互

var casper = require('casper').create({ verbose: true, logLevel: 'debug', pageSettings: { loadImages: false, loa...

分类：Web程序时间：2014-09-28 15:10:22 阅读次数：208

Centos下安装Scrapy

Scrapy是一个开源的机遇twisted框架的python的单机爬虫，该爬虫实际上包含大多数网页抓取的工具包，用于爬虫下载端以及抽取端。安装环境:centos5.4python2.7.3安装步骤:1.下载python2.7http://www.python.org/ftp/python/2.7.3...

分类：其他好文时间：2014-09-07 18:24:45 阅读次数：317

解决Jsoup网页抓取过程中需要cookie的问题

最近在做城觅网的信息抓取，发现城觅网上海与北京的url是一样的。那怎样才确定信息的来源呢？折腾了半天，才发现城觅网是使用cookie的，如果你把网站的cookie禁用了，就无法在上海与北京之间切换了。于是便想到了请求时将cookie带上。方法如下：第一步，拿到上海或者北京的cookieMap coo...

分类：Web程序时间：2014-08-25 20:47:24 阅读次数：247

【转】Nutch源代码研究网页抓取数据结构

今天我们看看Nutch网页抓取，所用的几种数据结构：主要涉及到了这几个类：FetchListEntry，Page，首先我们看看FetchListEntry类：public final class FetchListEntry implements Writable, Cloneable实现了Writ...

分类：Web程序时间：2014-08-22 15:59:58 阅读次数：242

【转】Nutch源代码研究网页抓取下载插件

今天我们来看看Nutch的源代码中的protocol-http插件，是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类，其中HttpRespose主要是向web服务器发请求来获取响应，从而下载页面。Http类则非常简单，其实可以说是HttpRespon...

分类：Web程序时间：2014-08-22 15:53:38 阅读次数：266

c++ hmtlcxx 学习之旅

最近刚网页抓取，抓取下来后需要解析，所以在网上找了一些资料，也问问我的师兄，最终结合网上的开源知识，完成了htmlcxx的使用。vs2013.首先要去下载htmlcxx：https://github.com/dhoerl/htmlcxx或者你也可以百度下去下载一个。接下来，将文件文件解压，我用vs2...

分类：编程语言时间：2014-08-22 00:12:05 阅读次数：372

11223

通过URL去访问另一台计算机1、理解URL ： HTTP协议的URL文件中的URL2、网页抓取，就是把URL 地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE 浏览器的功能，把URL 作为HTTP 请求的内容发送到服务器端，然后读取服务器端的响应资源。 Java 语言是为网...

分类：其他好文时间：2014-08-05 00:32:18 阅读次数：384

网页抓取

###-*-coding:cp936-*-###<ahref="http://home.51cto.com"target="_blank">家园</a>##importurllib##str0=‘<ahref="http://home.51cto.com"target="_blank">家园</a>‘##href=str0.find(‘<ahref‘)##printhref##com=str0.find(‘.com"‘)##printcom##ur..

分类：Web程序时间：2014-08-04 08:21:17 阅读次数：263

共184条上一页 1 ... 15 16 17 18 19 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)