http://www.cnblogs.com/wunaozai/p/3900134.htmlhttp://www.cnblogs.com/wunaozai/p/3900169.htmlhttp://www.cnblogs.com/wunaozai/p/3900454.htmlhttp://www.c...
分类:
其他好文 时间:
2014-12-14 15:50:05
阅读次数:
149
一个很简单的爬虫,爬取中大周边地点的点评信息。# -*- coding: utf-8 -*-import requestsimport reimport timedef placeSplider(name, star, url): time.sleep(5) res = requests...
分类:
其他好文 时间:
2014-12-12 22:08:27
阅读次数:
288
一、扯淡的说name:【豆瓣搜索】最近关注了下豆瓣的API,发现豆瓣开放平台需要加强API文档撰写啊....但是有个可喜的发现豆瓣V2接口提供了搜索接口。最近在用phantom弄些爬虫,想想,真是美丽极了!有个豆瓣的接口,我都不用去爬数据,不用数据存储,丢给github page直接完事。豆瓣,Ni...
分类:
移动开发 时间:
2014-12-12 19:01:32
阅读次数:
175
前言最近做了不少有关SEO的相关工作,以前是自己写爬虫去抓取其他网页,现在写网页让爬虫去抓,感觉这种角色调换还是挺奇妙的。经过这段时间的工作发现我写爬虫的为了获取特定信息,但是搜索引擎爬虫是为了获取互联网上的信息,这种目标性的不一样导致其数据抓取的机制和权重设..
分类:
Web程序 时间:
2014-12-11 19:21:06
阅读次数:
164
简单爬虫常用#获取网络内容def getWebContent(url): headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko)...
分类:
编程语言 时间:
2014-12-11 12:02:33
阅读次数:
181
1.http编程知识http中client 和server的工作模式 client和server建立可靠的tcp链接(在HTTP1.1中这个链接是长时间的,超时断开策略) client通过socket与server通信,发送request并接受response http协议是无状态的,是指每一...
分类:
编程语言 时间:
2014-12-11 11:56:24
阅读次数:
200
#coding: utf-8#title..href...str0='blabla《论电影的七个元素》——关于我对电…'import urllib.requestimport timeurl=['']*350page=1link=1while page东望洋 我们主要是想提取出中间绿色部分的...
分类:
编程语言 时间:
2014-12-10 22:40:22
阅读次数:
382
下面是一个 Python 爬虫最简单的例子,使用网络库urllib2 和正则表达式库re,模拟浏览器的 User-Agent。#!/usr/bin/env python# -*- coding: utf-8 -*-#引入基础网络库import urllib2#引入正则表达式模块import re#模...
分类:
编程语言 时间:
2014-12-10 19:46:40
阅读次数:
248
系统记录所有访问数据到数据库里面,包括访客及机器的访问(例如搜索引擎爬虫),机器访问通常会占大部分,记录大量数据,这样会生产不小的额外服务器性能开销,包括web服务、mysql数据库服务;看需要,这部分数据...
分类:
其他好文 时间:
2014-12-10 12:45:07
阅读次数:
215