码迷,mamicode.com
首页 > 其他好文 > 详细

node 写的简单爬虫

时间:2018-02-10 14:08:32      阅读:179      评论:0      收藏:0      [点我收藏+]

标签:新浪   col   选择   html   ons   node   爬取   color   stat   

安装cheerio

npm install cheerio --save

引入http和cheeri

var http=require("http");
var cheerio=require("cheerio");

1.爬取新闻

我们选择新浪新闻来进行爬取

http://news.sina.com.cn/china/
http.get(url,function(res){
     var html=‘‘;
     res.on(‘data‘,function(data){
         html +=data
     })
 
     res.on(‘end‘, function() {
         var $=cheerio.load(html);
        $("#subShowContent2_static .news-item h2").each((iten,i)=>{
            console.log($(i).text());
        })
      console.log("数据加载完毕");
     });
 }).on(‘error‘, function() {
     console.log("获取数据出错!")
 });

结果如下:

技术分享图片

2.爬取图片

我们选择天极网的图片进行爬取

http://pic.yesky.com/
http.get(url, function (res) {
        var imageData =‘‘;
        res.on(‘data‘,function(data){  //图片加载到内存变量
            imageData += data;
        }).on(‘end‘,function(){        //图片加载完
            var $=cheerio.load(imageData);
            $Imgs = $(‘img‘),
            $Imgs.each((iten,i)=>{
            console.log($(i).attr(‘src‘)+"------");
           })   
        });
    });

结果如下:

技术分享图片

 

node 写的简单爬虫

标签:新浪   col   选择   html   ons   node   爬取   color   stat   

原文地址:https://www.cnblogs.com/aSnow/p/8438425.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!