1.通用搜索引擎面临着索引规模、更新速度、个性化需求等多方面挑战 2.如果网页 p 中包含超链接 l, 则 p 称为链接 l 的父网页;如果超链接 l 指向网页 t, 则网页 t 称为子网页,又称为目标网页。 3.主题网络爬虫的基本思路就是按照事先给出的主题, 分析超链接和已经下载的网页内容, 预测 ...
分类:
其他好文 时间:
2016-09-23 23:30:52
阅读次数:
384
前言:对网络爬虫很感兴趣 —————————————————————————————————————————————— 一、网络爬虫的工作原理 1.1等同于浏览器访问网页的工作原理。(详细情况见本文末尾博文链接) (1)是一种真人的行为驱动 (2)通过浏览器来自动执行人为的动作,将动作自动程序化。 ...
分类:
其他好文 时间:
2016-09-19 22:28:34
阅读次数:
204
原文 C#制作多线程处理强化版网络爬虫 上次做了一个帮公司妹子做了爬虫,不是很精致,这次公司项目里要用到,于是有做了一番修改,功能添加了网址图片采集,下载,线程处理界面网址图片下载等。 说说思路:首相获取初始网址的所有内容 在初始网址采集图片 去初始网址采集链接 把采集到的链接放入队列 继续采集图片 ...
分类:
编程语言 时间:
2016-09-19 15:39:54
阅读次数:
247
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。 Python版本:2.7,Python 3请另寻其他博文。 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网 ...
分类:
编程语言 时间:
2016-09-18 13:14:58
阅读次数:
162
目的: 通过网络爬虫爬取中国最小粒度的区域维度信息,包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village) 主网站链接: http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.htm ...
分类:
编程语言 时间:
2016-09-16 22:36:52
阅读次数:
666
上次做了一个帮公司妹子做了爬虫,不是很精致,这次公司项目里要用到,于是有做了一番修改,功能添加了网址图片采集,下载,线程处理界面网址图片下载等。 说说思路:首相获取初始网址的所有内容 在初始网址采集图片 去初始网址采集链接 把采集到的链接放入队列 继续采集图片,然后继续采集链接,无限循环 还是上图片 ...
分类:
编程语言 时间:
2016-09-10 21:59:15
阅读次数:
339
用到的技术也同样是网络抓包、DOM树分析、网络请求等。 网络抓包 这里抓包很简单,首先打开fiddler软件,然后打开你要破解的网站,输入用户名和一个假的密码(如果你知道真的密码,就不需要破解了),点击登录,这时候就会从fiddler中查看到一条登录的请求,一般都是POST请求,可以很清楚的从请求内 ...
分类:
其他好文 时间:
2016-09-09 16:37:21
阅读次数:
158
HTML转义字符的解析方法: 第一种:ASP.NET中的html解析 HttpUtility.HtmlDecode()方法 system.web 第二种:网络爬虫中的 WebUtility.HtmlDecode 方法 (String) WebUtility.HtmlDecode 方法 (String ...
分类:
Windows程序 时间:
2016-09-08 12:43:33
阅读次数:
1211
正则表达式一般用于索引字符串中满足特定规则的子串,或用于匹配判断指定字符串是否满足某种规则,比如校验手机号,身份证号等是否满足格式,网络爬虫中过滤url链接,等等。 1. 常见规则 2. 常用正则 手机号码:^1[3|4|5|8][0-9]\d{8}$ 身份证号:^(\d{6})(18|19|20) ...
分类:
其他好文 时间:
2016-09-08 06:15:16
阅读次数:
146
陆陆续续做了有一个月,期间因为各种技术问题被多次暂停,最关键的一次主要是因为存储容器使用的普通二叉树,在节点权重相同的情况下导致树高增高,在进行遍历的时候效率大大降低,甚至在使用递归的时候导致栈内存溢出。后来取消递归遍历算法,把普通的二叉排序树升级为平衡二叉树这才解决这些问题。着这个过程中把栈、队列 ...
分类:
编程语言 时间:
2016-09-03 09:45:02
阅读次数:
250