记得先装载http这个模块 打开cmd :npm install http -g cmd:node一下,出来网页源码 然后npm install cheerio -g 用慕课网做测试哈哈哈 ,这里要说明一点:代码和课程中是不一样的,因为网站改动了源代码,class之类的名字换掉了,所以之前的爬虫爬不 ...
分类:
Web程序 时间:
2017-07-14 00:44:12
阅读次数:
216
运行结果 二、获取页面的课程列表 安装cheerio cmd 执行命令 npm install cheerio 然后就可以require cheerio 运行结果 ...
分类:
Web程序 时间:
2017-07-07 17:27:52
阅读次数:
148
//http小爬虫 var http=require('http') var cheerio=require('cheerio') var url='http://www.imooc.com/learn/348' function filter(html){ var $=cheerio.load(h... ...
分类:
Web程序 时间:
2017-07-03 16:27:51
阅读次数:
228
该小程序是根据某个视频教学中写的,记录下,能跑成功一个小爬虫的程序,很是鸡冻。 ...
分类:
编程语言 时间:
2017-06-29 22:29:30
阅读次数:
152
re(续): re默认是贪婪模式。 贪婪模式:在满足匹配时,匹配尽可能长的字符串。 re的模块的常用方式: re.split(): 类似字符串的split命令但是比 字符串的split 更强大。 re.sub():类似replace 替换操作。 re.compile():编译 一个小爬虫正则练习(爬 ...
分类:
编程语言 时间:
2017-06-27 20:52:56
阅读次数:
222
比人的文章 今天安装方式测试了 可行 复制记录下而已 1 背景 这两天比较忙,各种锅锅接,忙里偷闲完结这一篇吧。在我们在上一篇《Python3.X 爬虫实战(先爬起来嗨)》中已经介绍了 Python 3 爬虫的基础知识,最后也通过了一个不是十分严谨的小爬虫程序展示了其强大的魅力。有人说上一篇《Pyt ...
分类:
编程语言 时间:
2017-06-17 13:44:42
阅读次数:
255
上次看了一下scrapy1.1的新手指南 决定写个小爬虫实验一下 目标网站是http://www.dm5.com/manhua-huofengliaoyuan准备爬取漫画火凤燎原的已有章节,将图片保存到本地 开始一切顺利,从漫画目录页面开始,拿到了每一话(卷)的地址 然而访问后发现页面中的图片地址都 ...
分类:
Web程序 时间:
2017-06-03 21:43:54
阅读次数:
234
众所周知,网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。 很多人为了提高自己网站的索引量,都是去网上随便找一些爬虫工具来使用。但是很多人不知道,这些抓取网站的小爬虫是有各种各样的不同性格的。 常见的优秀网络爬虫有以下几种类型: 1.批量型网络 ...
分类:
其他好文 时间:
2017-04-25 23:38:56
阅读次数:
561
潜伏了两天,认真学习了爬虫,现在开始模仿别人写我的小爬虫代码了,第一个爬虫开始扒一下新浪国内新闻:http://news.sina.com.cn/china/ 开始: ...
分类:
其他好文 时间:
2017-04-25 22:28:10
阅读次数:
151
学习python有一段时间了这几天想写一个爬去百度图片的小爬虫代码from selenium import webdriverimport urllib,reimport timeimport urllib2import sysimport osimport socketimport threadi ...
分类:
其他好文 时间:
2017-04-24 14:08:07
阅读次数:
193