码迷,mamicode.com
首页 >  
搜索关键字:爬虫    ( 10452个结果
网络爬虫学习别人
http://www.cnblogs.com/wunaozai/p/3900134.htmlhttp://www.cnblogs.com/wunaozai/p/3900169.htmlhttp://www.cnblogs.com/wunaozai/p/3900454.htmlhttp://www.c...
分类:其他好文   时间:2014-12-14 15:50:05    阅读次数:149
简单的大众点评爬虫
一个很简单的爬虫,爬取中大周边地点的点评信息。# -*- coding: utf-8 -*-import requestsimport reimport timedef placeSplider(name, star, url): time.sleep(5) res = requests...
分类:其他好文   时间:2014-12-12 22:08:27    阅读次数:288
爱搜索,爱生活,基于豆瓣API & Angular开发的web App(by vczero)
一、扯淡的说name:【豆瓣搜索】最近关注了下豆瓣的API,发现豆瓣开放平台需要加强API文档撰写啊....但是有个可喜的发现豆瓣V2接口提供了搜索接口。最近在用phantom弄些爬虫,想想,真是美丽极了!有个豆瓣的接口,我都不用去爬数据,不用数据存储,丢给github page直接完事。豆瓣,Ni...
分类:移动开发   时间:2014-12-12 19:01:32    阅读次数:175
网站SEO优化的一些经验总结
前言最近做了不少有关SEO的相关工作,以前是自己写爬虫去抓取其他网页,现在写网页让爬虫去抓,感觉这种角色调换还是挺奇妙的。经过这段时间的工作发现我写爬虫的为了获取特定信息,但是搜索引擎爬虫是为了获取互联网上的信息,这种目标性的不一样导致其数据抓取的机制和权重设..
分类:Web程序   时间:2014-12-11 19:21:06    阅读次数:164
积累 自定义 Python 函数
简单爬虫常用#获取网络内容def getWebContent(url): headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko)...
分类:编程语言   时间:2014-12-11 12:02:33    阅读次数:181
Python爬虫预备知识
1.http编程知识http中client 和server的工作模式 client和server建立可靠的tcp链接(在HTTP1.1中这个链接是长时间的,超时断开策略) client通过socket与server通信,发送request并接受response http协议是无状态的,是指每一...
分类:编程语言   时间:2014-12-11 11:56:24    阅读次数:200
利用Python编写网络爬虫下载文章
#coding: utf-8#title..href...str0='blabla《论电影的七个元素》——关于我对电…'import urllib.requestimport timeurl=['']*350page=1link=1while page东望洋 我们主要是想提取出中间绿色部分的...
分类:编程语言   时间:2014-12-10 22:40:22    阅读次数:382
python爬虫,爬豆瓣top250电影
python爬虫,爬豆瓣top250电影...
分类:编程语言   时间:2014-12-10 19:52:46    阅读次数:167
Python 爬虫基础
下面是一个 Python 爬虫最简单的例子,使用网络库urllib2 和正则表达式库re,模拟浏览器的 User-Agent。#!/usr/bin/env python# -*- coding: utf-8 -*-#引入基础网络库import urllib2#引入正则表达式模块import re#模...
分类:编程语言   时间:2014-12-10 19:46:40    阅读次数:248
magento性能优化:禁用访问日志记录
系统记录所有访问数据到数据库里面,包括访客及机器的访问(例如搜索引擎爬虫),机器访问通常会占大部分,记录大量数据,这样会生产不小的额外服务器性能开销,包括web服务、mysql数据库服务;看需要,这部分数据...
分类:其他好文   时间:2014-12-10 12:45:07    阅读次数:215
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!