码迷,mamicode.com
首页 >  
搜索关键字:爬虫基础    ( 214个结果
所谓的python web爬虫基础
import re 正则表达式: 常用的符号:点号 问号 星号 和小括号 .:匹配任意字符,换行符\n除外 ——点号可以理解为占位符,一个点号匹配一个字符。 *:匹配前一个字符0次或无限次 ?:匹配前一个字符0次或者1次 .*:...
分类:编程语言   时间:2015-09-11 16:15:24    阅读次数:180
python爬虫(四)--python正则表达式
在爬虫的学习过程中,又一个你必须要掌握的知识点就是正则表达式 爬虫程序需要爬取你需要的东西,那么就对爬取的结果进行筛选,正则表达式就起到这样的作用 如果你学过任何一门语言,相信你都会接触正则表达式。并且正则表达式大多相同。 不管怎样,就像开头说的那样,因为这是爬虫基础教程。所以这篇文章要详细的说一下python的 正则表达式。开始进入正题吧。 正则表达式是一个特殊的字符序列,它能帮助你方...
分类:编程语言   时间:2015-08-03 10:25:26    阅读次数:151
python爬虫(三)--Python的set()
如果你已经掌握了爬虫基础,看了我前面三个基础再来继续看这一篇文章。 这篇文章主要讲解爬虫程序中必须要用到的python集合,如果你对集合很了解。那可以不用看。 在爬虫程序中,为了不重复爬取已经爬过的页面,我...
分类:编程语言   时间:2015-08-01 23:44:09    阅读次数:308
python爬虫(二)--了解deque
队列-deque 有了上面一节的基础,当然你需要完全掌握上一节的所有方法,因为上一节的方法,在下面的教程中 会反复的用到。 如果你没有记住,请你返回上一节。 这一节我们要了解一种队列--deque。在下面的爬虫基础...
分类:编程语言   时间:2015-08-01 19:19:09    阅读次数:186
python爬虫(二)--了解deque
队列-deque 有了上面一节的基础,当然你需要完全掌握上一节的所有方法,因为上一节的方法,在下面的教程中 会反复的用到。 如果你没有记住,请你返回上一节。 http://blog.csdn.net/passer_zzy/article/details/47156109 这一节我们要了解一种队列--deque。在下面的爬虫基础中,我们也要反复的使用deque,来完成网址 的出队入队...
分类:编程语言   时间:2015-08-01 19:07:46    阅读次数:131
Python爬虫基础(一)--简单的url请求
#encoding:UTF-8 import urllib import urllib.request # data是一个字典,然后通过urllib.parse.urlencode()将data转换为'wd = 904727147'的字符串 #最后和url合并为full_url # urllib.request是一个库,隶属urllib,urllib是一个收集了很多处理url的包,开放网址的可扩展...
分类:编程语言   时间:2015-07-30 23:30:34    阅读次数:201
Python爬虫基础(一)--简单的url请求
#encoding:UTF-8 import?urllib import?urllib.request #?data是一个字典,然后通过urllib.parse.urlencode()将data转换为‘wd?=?904727147‘的字符串 #最后和url合并为full_url #?urllib.request是一个库,隶...
分类:编程语言   时间:2015-07-30 21:35:50    阅读次数:152
Java版网络爬虫基础(转)
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等。这几天看了点基础,记录下来。 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先,概括的说来如下: 2个数组,一个记录已访问的网页(Al),一个记录未访问的网页(Un)。假设...
分类:编程语言   时间:2015-07-24 08:02:51    阅读次数:182
【VB6】使用VB6创建和访问Dom树【爬虫基础知识 】
使用VB6创建和访问Dom树关键字:VB,DOM,HTML,爬虫,IHTMLDocument我们知道,在VB中一般大家会用WebBrowser来获取和操作dom对象。但是,有这样一种情形,却让我们纠结不已:我们需要做爬虫,然后爬虫不需要太高的效率,但是我们被复杂的正则表达式给弄的头晕眼花。不知道何去...
分类:其他好文   时间:2015-06-07 23:20:46    阅读次数:390
这就是搜索引擎--读书笔记三
前言考虑到上次的网络爬虫总结一文对基础的知识还没有介绍完整,所以今天花一点时间来补充上次的网络爬虫基础知识。这次给大家总结了两个方面的内容:暗网抓取和分布式爬虫。希望对阅读本文的博友们有所收获。暗网抓取物理学研究表明,在目前宇宙所有物质的总体质量中,星系等可见物质占其中的20%,不可探测的暗物质占据...
分类:其他好文   时间:2015-05-29 19:57:14    阅读次数:139
214条   上一页 1 ... 19 20 21 22 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!