搜索关键字：爬虫基础，搜索到214个结果！码迷,mamicode.com！

import re 正则表达式：常用的符号：点号问号星号和小括号 .：匹配任意字符，换行符\n除外 ——点号可以理解为占位符，一个点号匹配一个字符。 *:匹配前一个字符0次或无限次 ?:匹配前一个字符0次或者1次 .*：...

分类：编程语言时间：2015-09-11 16:15:24 阅读次数：180

在爬虫的学习过程中，又一个你必须要掌握的知识点就是正则表达式爬虫程序需要爬取你需要的东西，那么就对爬取的结果进行筛选，正则表达式就起到这样的作用如果你学过任何一门语言，相信你都会接触正则表达式。并且正则表达式大多相同。不管怎样，就像开头说的那样，因为这是爬虫基础教程。所以这篇文章要详细的说一下python的正则表达式。开始进入正题吧。正则表达式是一个特殊的字符序列，它能帮助你方...

分类：编程语言时间：2015-08-03 10:25:26 阅读次数：151

python爬虫(三)--Python的set()

如果你已经掌握了爬虫基础，看了我前面三个基础再来继续看这一篇文章。这篇文章主要讲解爬虫程序中必须要用到的python集合，如果你对集合很了解。那可以不用看。在爬虫程序中，为了不重复爬取已经爬过的页面，我...

分类：编程语言时间：2015-08-01 23:44:09 阅读次数：308

python爬虫(二)--了解deque

队列-deque 有了上面一节的基础，当然你需要完全掌握上一节的所有方法，因为上一节的方法，在下面的教程中会反复的用到。如果你没有记住，请你返回上一节。这一节我们要了解一种队列--deque。在下面的爬虫基础...

分类：编程语言时间：2015-08-01 19:19:09 阅读次数：186

python爬虫(二)--了解deque

队列-deque 有了上面一节的基础，当然你需要完全掌握上一节的所有方法，因为上一节的方法，在下面的教程中会反复的用到。如果你没有记住，请你返回上一节。 http://blog.csdn.net/passer_zzy/article/details/47156109 这一节我们要了解一种队列--deque。在下面的爬虫基础中，我们也要反复的使用deque，来完成网址的出队入队...

分类：编程语言时间：2015-08-01 19:07:46 阅读次数：131

Python爬虫基础(一)--简单的url请求

#encoding:UTF-8 import urllib import urllib.request # data是一个字典，然后通过urllib.parse.urlencode()将data转换为'wd = 904727147'的字符串 #最后和url合并为full_url # urllib.request是一个库,隶属urllib,urllib是一个收集了很多处理url的包，开放网址的可扩展...

分类：编程语言时间：2015-07-30 23:30:34 阅读次数：201

Python爬虫基础(一)--简单的url请求

#encoding:UTF-8 import?urllib import?urllib.request #?data是一个字典，然后通过urllib.parse.urlencode()将data转换为‘wd?=?904727147‘的字符串 #最后和url合并为full_url #?urllib.request是一个库,隶...

分类：编程语言时间：2015-07-30 21:35:50 阅读次数：152

Java版网络爬虫基础（转）

网络爬虫不仅仅可以爬取网站的网页，图片，甚至可以实现抢票功能，网上抢购，机票查询等。这几天看了点基础，记录下来。网页的关系可以看做是一张很大的图，图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先，概括的说来如下: 2个数组，一个记录已访问的网页(Al)，一个记录未访问的网页(Un)。假设...

分类：编程语言时间：2015-07-24 08:02:51 阅读次数：182

【VB6】使用VB6创建和访问Dom树【爬虫基础知识】

使用VB6创建和访问Dom树关键字:VB，DOM，HTML，爬虫，IHTMLDocument我们知道，在VB中一般大家会用WebBrowser来获取和操作dom对象。但是，有这样一种情形，却让我们纠结不已：我们需要做爬虫，然后爬虫不需要太高的效率，但是我们被复杂的正则表达式给弄的头晕眼花。不知道何去...

分类：其他好文时间：2015-06-07 23:20:46 阅读次数：390

这就是搜索引擎--读书笔记三

前言考虑到上次的网络爬虫总结一文对基础的知识还没有介绍完整，所以今天花一点时间来补充上次的网络爬虫基础知识。这次给大家总结了两个方面的内容：暗网抓取和分布式爬虫。希望对阅读本文的博友们有所收获。暗网抓取物理学研究表明，在目前宇宙所有物质的总体质量中，星系等可见物质占其中的20%，不可探测的暗物质占据...

分类：其他好文时间：2015-05-29 19:57:14 阅读次数：139

共214条上一页 1 ... 19 20 21 22 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)