码迷,mamicode.com
首页 >  
搜索关键字:桌酷 爬虫 python3    ( 22387个结果
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容(转)
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:编程语言   时间:2014-05-27 00:12:25    阅读次数:323
[Python]网络爬虫(四):Opener与Handler的介绍和实例应用(转)
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或...
分类:编程语言   时间:2014-05-26 23:17:30    阅读次数:352
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类(转)
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。1.URLError...
分类:编程语言   时间:2014-05-26 23:17:09    阅读次数:341
一个简单的多线程爬虫
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。
分类:编程语言   时间:2014-05-26 15:41:47    阅读次数:394
大数据之网络爬虫-一个简单的多线程爬虫
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问.....
分类:编程语言   时间:2014-05-26 13:13:56    阅读次数:318
robots.txt用法
robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成...
分类:其他好文   时间:2014-05-26 13:04:58    阅读次数:228
python安装zlib一直无效
一直按网上的方法:1.先安装apt-get install zlib1g-dev2.重新安装python(3.3):即是./configure 再make再make install始终没有解决掉问题!最后发现,还需要再链接一次:#ln -s /usr/local/python3.3/bin/pyth...
分类:编程语言   时间:2014-05-26 12:35:01    阅读次数:298
定向数据爬虫和搜索引擎(Directional Spider)设计(一) —— 元素分析
Insert title here定向数据爬虫和搜索引擎(Directional Spider)设计(一) —— 元素分析前言页面定向数据抓取目的就是尽可能的抓取在互联网中获取到你感兴趣的数据。因为是定向抓取,同时需要保证对抓取的数据进行数据加工处理,做到对应的数据规范,方便后期检索。 简单的说这个...
分类:其他好文   时间:2014-05-26 07:28:45    阅读次数:225
转simhash与重复信息识别
simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复...
分类:其他好文   时间:2014-05-26 06:38:50    阅读次数:258
python实现人人网留言获取与一键删除
最近有点着迷Python,学习基本语法之后,首先从爬虫开始,看了《使用python登录人人网并发表状态》一文后,很感兴趣,然后又曾经苦于人人网聊天记录删除的繁琐,于是决定写一个聊天记录一键删除的小脚本,好啦,废话不多说:#encoding:utf-8import urllib2, urllib, c...
分类:编程语言   时间:2014-05-24 09:35:03    阅读次数:390
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!