http 小爬虫

时间：2017-02-16 14:37:19 阅读：241 评论：0 收藏：0 [点我收藏+]

标签：npm chapter tle strong href content http seda query

初学nodejs写一个http小爬虫，爬虫就是把网页上的代码爬下来。

代码：

var http = require(‘http‘) //加载http模块
var url = ‘http://www.imooc.com/learn/713‘

http.get(url,function(res){ //get去请求url，此处以慕课网为例
var html = ‘‘
res.on(‘data‘,function(data){
html += data //请求数据赋值给前面定义的html
})
res.on(‘end‘,function(){
console.log(html) //打印html
}).on(‘error‘,function(){
console.log(‘获取课程数据出错！‘)
})
})

保存，然后在node环境下运行，命令:node 文件名

亲测成功。

案例二：

首先需要安装一下cheerio模块，cheerio模块可以在服务器端使用jquery的方式

安装方法:

npm install cheerio

首先开启本地一个服务器测试一下

//js代码

var http = require(‘http‘)

http

　　.createServer(function(req,res){

res.writeHead(200,{‘Content-Type‘:‘text/plain});

res.write(‘开始了‘);

res.end();

}).listen(8080);

下面贴代码：

‘use strict‘;
var http = require(‘http‘)
var cheerio = require(‘cheerio‘)
var url = ‘http://www.imooc.com/learn/348‘
function filterChapters(html){
var $ = cheerio.load(html)
var chapters = $(‘.chapter‘)
/*[{
chapterTitle: ‘‘,
videos:[
title:‘‘,
id: ‘‘
]
}]*/
var courseData = []
chapters.each(function(item){
var chapter = $(this)
var chapterTitle = chapter.find(‘strong‘).text()
var videos = chapter.find(‘.video‘).children(‘li‘)
var chapterData = {
chapterTitle: chapterTitle,
videos:[]
}
videos.each(function(item){
var video = $(this).find(‘.J-media-item‘)
var videoTitle = video.text()
var id = video.attr(‘href‘).split(‘video/‘)[1]
chapterData.videos.push({
title: videoTitle,
id: id
})

})
courseData.push(chapterData)
})
return courseData
}
function printCourseInfo(courseData){
console.log(‘获取课程数据1！‘)
courseData.forEach(function(item){
var chapterTitle = item.chapterTitle
console.log(chapterTitle + ‘\n‘)
item.videos.forEach(function(video){
console.log(‘【‘ + video.id +‘】‘ + video.title + ‘\n‘)
})
console.log(‘获取课程数据2！‘)
})
}
http.get(url,function(res){
var html = ‘‘
res.on(‘data‘,function(data){
html += data
})
res.on(‘end‘,function(){
var courseData = filterChapters(html)
printCourseInfo(courseData)
}).on(‘error‘,function(){
console.log(‘获取课程数据出错！‘)
})
console.log(‘获取课程数据3！‘)

})

亲测有效

http 小爬虫

标签：npm chapter tle strong href content http seda query

原文地址：http://www.cnblogs.com/wyycatch/p/6387578.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行