码迷,mamicode.com
首页 >  
搜索关键字:爬虫基础    ( 214个结果
这就是搜索引擎--读书笔记二
网络爬虫基础前言通用搜索引擎的处理对象就是互联网网页,目前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。网络爬虫即起此作用,它是搜索引擎系统中很关键也很基础的构建。本次总结以及接下来的几次总结主要给大...
分类:其他好文   时间:2015-05-28 17:36:12    阅读次数:239
scrapy爬虫1--基础设置篇
scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为pytho...
分类:其他好文   时间:2015-02-12 19:53:39    阅读次数:251
Python 爬虫基础
下面是一个 Python 爬虫最简单的例子,使用网络库urllib2 和正则表达式库re,模拟浏览器的 User-Agent。#!/usr/bin/env python# -*- coding: utf-8 -*-#引入基础网络库import urllib2#引入正则表达式模块import re#模...
分类:编程语言   时间:2014-12-10 19:46:40    阅读次数:248
Java版网络爬虫基础
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等。这几天看了点基础,记录下来。 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先,概括的说来如下: 2个数组,一个记录已访问的网页(Al),一个记录未访问的网页(Un...
分类:编程语言   时间:2014-09-14 12:51:17    阅读次数:427
214条   上一页 1 ... 20 21 22
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!