一.HTML语义化的概念 1、主要的标签,有标题(H1~H6)、列表(li)、强调(strong em)等 2、根据内容的结构化(内容语义化),选择合适的标签(代码语义化)便于开发者阅读,以及在写出更优雅的代码的同时让浏览器的爬虫和机器很好地解析。二 .语义化的必要 1.为了在...
分类:
Web程序 时间:
2014-09-28 22:33:26
阅读次数:
277
本文利用WebCollector内核的解析,来描述如何设计一个网络爬虫。
WebCollector使用了Nutch的爬取逻辑(分层广度遍历),Crawler4j的的用户接口(覆盖visit方法,定义用户操作),以及一套自己的插件机制,设计了一套爬虫内核。...
分类:
Web程序 时间:
2014-09-27 13:36:09
阅读次数:
687
你的网站内容很有价值,希望被google,百度等正规搜索引擎爬虫收录,却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。【思路】反爬虫策略要考虑以下几点:能被google、百度等正规搜索引擎爬虫抓取,不限流量和并发数;阻止山寨爬虫的抓取;反爬虫策略应该是...
分类:
Web程序 时间:
2014-09-25 21:33:37
阅读次数:
327
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Mu...
分类:
编程语言 时间:
2014-09-25 19:37:17
阅读次数:
150
环境:python2.7以360为例,用http截取工具获得url,具体的获取方法根据要求实现功能而定。例如:我要爬取她的关键词,就是截取以...word=结尾的一串url。没有加入浏览器信息,系统版本,事实证明360对爬虫很友好呢=、=。1、关于正则表达式的处理,根据实际情况自己写,没有特别统一的...
分类:
编程语言 时间:
2014-09-25 10:38:58
阅读次数:
388
在使用python抓取网页图片的时候,偶尔会遇到403错误。这可能是因为服务器禁止了爬虫。这种情况下如果想继续爬取图片的时候,就需要在请求中加入header信息,伪装成浏览器。如果你使用的是python3.4版本,那么如果你想在网上找到在请求中加入header的方法,估计要费些周折。经过一番实验,确...
分类:
编程语言 时间:
2014-09-24 18:32:07
阅读次数:
378
通过搜集和总结,整理出当前比较常用的搜索引擎爬虫IP,仅供大家参考:百度爬虫IP列表220.181.108.100180.149.130.*220.181.51.*123.125.71.*180.76.5.66google爬虫列表66.249.64.5067.221.235.*66.249.68.*66.249.67.*203.208.60.*66.249.72.*66.249.71.*宜搜183.60.213.6183...
分类:
其他好文 时间:
2014-09-24 14:06:47
阅读次数:
257
#!/usr/bin/env python#-*- coding:utf8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')import urllib,urllib2import refrom bs4 import BeautifulSoup...
分类:
其他好文 时间:
2014-09-23 13:35:14
阅读次数:
194
前面讲述了"专题一.函数的基础知识",而这篇文章讲述的Python的条件语句和循环语句的基础知识.主要内容包括:
1.条件语句:包括单分支、双分支和多分支语句,if-elif-else
2.循环语句:while的使用及简单网络刷博器爬虫
3.循环语句:for的使用及遍历列表、元组、文件和字符串
基础知识仅供大家学习...
分类:
编程语言 时间:
2014-09-22 21:58:33
阅读次数:
348
了解xml :
解析之前首先对xml 做个了解。
来自维基百科的解释:
XML设计用来传送及携带数据信息,不用来表现或展示数据,HTML语言则用来表现数据,所以XML用途的焦点是它说明数据是什么,以及携带数据信息。
如果你已经了解xml,可以跳过这一部分。
xml是一种描述层次结构化数...
分类:
编程语言 时间:
2014-09-22 21:43:53
阅读次数:
347