1.import java.io.*; java.io.*不是一个文件,而是一组类。它是在java.io包里的所有类,*是通配符,比如a*.txt代表的就是以a开头的所有txt文件,“?”是单个词的通配符,比如a?.txt代表的就是以a开头而且名字只有两个字的txt文件import的作用是:在你写一
分类:
编程语言 时间:
2016-02-23 12:55:41
阅读次数:
284
相比于爬虫框架,知乎小爬虫,更加适合初学者,尤其是想要了解爬虫技术细节、实现自己编写爬虫需求的初学者。 1. 谈爬虫工程师的价值 大数据时代已到,数据越来越具有价值了,没有数据寸步难行,有了数据好好利用,可以在诸多领域干很多事,比如很火的互联网金融。从互联网上爬来自己想要的数据,是数据的一个重要来源
分类:
其他好文 时间:
2016-02-17 09:28:44
阅读次数:
242
一,爬虫及Robots协议 爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。robots.txt是一个文本文件,robots是一个协议,而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服
分类:
Web程序 时间:
2016-02-09 01:21:26
阅读次数:
238
一,爬虫及Robots协议 爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 robots.txt是一个文本文件,robots是一个协议,而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服务器上什么文件是可以被查看的,搜索机器人就会按照该文...
分类:
Web程序 时间:
2016-02-08 21:26:23
阅读次数:
410
之前写了个现在看来很不完美的小爬虫,很多地方没有处理好,比如说在知乎点开一个问题的时候,它的所有回答并不是全部加载好了的,当你拉到回答的尾部时,点击加载更多,回答才会再加载一部分,所以说如果直接发送一个问题的请求链接,取得的页面是不完整的。还有就是我们通过发送链接下载图片的时候,是一张一张来下的,如
分类:
Web程序 时间:
2016-02-06 14:23:50
阅读次数:
227
1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').read()2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2proxy_support = urll...
分类:
编程语言 时间:
2016-01-08 09:21:12
阅读次数:
201
在ajax横行的年代,很多网页的内容都是动态加载的,而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不完整的,下面可以看下博客园首页从首页加载中我们看到,在页面呈现后,还会有5个ajax异步请求,在默认的情况下,爬虫是抓...
分类:
Windows程序 时间:
2016-01-04 19:39:30
阅读次数:
2787
众所周知,python是写爬虫的利器,今天作者用python写一个小爬虫爬下一个段子网站的众多段子。目标段子网站为“http://ishuo.cn/”,我们先分析其下段子的所在子页的url特点,可以轻易发现发现为“http://ishuo.cn/subject/”+数字,经过测试发现,该网站的反扒机...
分类:
编程语言 时间:
2016-01-02 14:23:49
阅读次数:
305
# coding: utf-8__author__ = 'zhangcx'from urllib3 import PoolManagerimport codecsimport jsonclass myjob(object): def __init__(self): self._p...
分类:
编程语言 时间:
2015-12-06 22:27:09
阅读次数:
242
使用nodejs抓取网页数据,这里用到cheerio,解析html十分好用,和jquery用法完全一致。首先安装cheerio,在命令行中输入 npm install cheerio;(在nodejs根目录下输入该命令)安装完成以后,我们来解析慕课网上http://www.imooc.com/lea...
分类:
Web程序 时间:
2015-10-18 15:16:46
阅读次数:
162