搜索关键字：爬虫，搜索到10452个结果！码迷,mamicode.com！

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍：2. 从简单语句中开始:3. 传送数据给服务器4. HTTP头—描述数据的数据5. 异常 5.0.1. URLError5.0.2. HTTPError5.0.3. 处理异常5.0.4. info和geturl 6. Opener和Handler7. Ba...

分类：编程语言时间：2014-09-04 15:04:19 阅读次数：357

WeChall Training: WWW-Robots

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式，用来指导搜索引擎更好地抓取网站内容，而不是作为搜索引擎之间互相限制和不正当竞争的工具。找到wechall的robots.txt ht...

分类：其他好文时间：2014-09-04 15:03:09 阅读次数：542

python正则表达式 1

re模块提供了一个郑则表达式的引擎接口，可以让你的Restring变异成对象并用它来进行匹配，这样效率比较高。附上例子让我们一块体验一下吧。以下是我写的类似与爬虫的小脚本，供大家参考#!/usr/bin/python#coding=utf-8importurllibimportreimportosdefgetHtmlData():returnurll..

分类：编程语言时间：2014-09-04 03:05:28 阅读次数：173

基于Berkeley DB实现的持久化队列

转自：http://guoyunsky.iteye.com/blog/1169912队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heri...

分类：数据库时间：2014-09-03 14:45:16 阅读次数：468

python使用异步任务celery出现异常崩溃时retry重试

前言：python下的celery是啥东西大家应该有了解，是一个异步的任务框架。话说，我以前写过一个报警平台的项目，也需要任务的扩展成分布式，当时总是觉得用celery不是那么太靠谱，所以就自己写了一个分布式的任务派发的系统。今个和朋友聊起了分布式爬虫，这哥们说任务有时候经..

分类：编程语言时间：2014-09-03 02:42:47 阅读次数：1943

自制数据挖掘工具分析北京房价（二）数据清洗

上一节我们通过爬虫工具爬取了近七万条二手房数据，那么这一节就对这些数据进行预处理，也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性数据分析的前提是数据清洗。不论如何高大上的算法，遇到错误数据，一个异常抛出来，绝对尸横遍野。而你不能指望核心算法为你处理错.....

分类：其他好文时间：2014-09-01 22:32:33 阅读次数：347

用WebCollector爬取新浪微博数据

用WebCollector可以轻松爬取新浪微博的数据. 首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件). 具体步骤: 1.用浏览器打开 http://weibo.cn/pub/ 这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码...

分类：Web程序时间：2014-09-01 19:39:03 阅读次数：345

如何找出知乎的所有神回复

写一个爬虫，找出知乎的神回复

分类：其他好文时间：2014-09-01 17:20:23 阅读次数：195

scrapy为不同网站设置不同的代理

在公司项目中，有一些爬虫中需要用的国内代理，有一些需要用到国外代理，有一些不用代理我测试了三个方案方案一：在settings.py中开启代理，然后在spider中重写DOWNLOADER_MIDDLEWARES，但重写无法生效方案二：让scrapy切换到不同的settings.py文件，这个手动切换是有效果的，..

分类：Web程序时间：2014-09-01 15:48:54 阅读次数：251

Python实用工具包Scrapy安装教程

对于想用每个想用Python开发网络爬虫的开发者来说，Scrapy无疑是一个极好的开源工具。今天安装之后觉得Scrapy的安装确实不易啊。所以在此博文一篇，往后来着少走弯路。废话不多说了，如果你还不知道Scrapy是何物，可登陆在其官网http://scrapy.org/一览究竟，在此不再赘述。 ...

分类：编程语言时间：2014-09-01 15:21:13 阅读次数：405

共10452条上一页 1 ... 1020 1021 1022 1023 1024 ... 1046 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)