nodejs抓取页面内容，并分析有无某些内容的js文件

时间：2015-11-16 15:35:25 阅读：151 评论：0 收藏：0 [点我收藏+]

标签：

nodejs获取网页内容绑定data事件，获取到的数据会分几次相应，如果想全局内容匹配，需要等待请求结束，在end结束事件里把累积起来的全局数据进行操作！

举个例子，比如要在页面中找有没有www.baidu.com，不多说了，直接放代码：

//引入模块
var http = require("http"),
fs = require(‘fs‘),
url = require(‘url‘);

//写入文件，把结果写入不同的文件
var writeRes = function(p, r) {
     fs.appendFile(p , r, function(err) {
        if(err)
             console.log(err);
        else
             console.log(r);
    });
},

//发请求，并验证内容，把结果写入文件
postHttp = function(arr, num) {
     console.log(‘第‘+num+"条！")
     var a = arr[num].split(" - ");
     if(!a[0] || !a[1]) {
          return;
     }
     var address = url.parse(a[1]),
     options = {
          host : address.host,
          path: address.path,
          hostname : address.hostname,
          method: ‘GET‘,
          headers: { 
            ‘User-Agent‘ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36‘
        } 
     }
     var req = http.request(options, function(res) {
          if (res.statusCode == 200) {
               res.setEncoding(‘UTF-8‘);
               var data = ‘‘;
               res.on(‘data‘, function (rd) {    
                    data += rd;
               });
               res.on(‘end‘, function(q) {
                    if(!~data.indexOf("www.baidu.com")) {
                         return writeRes(‘./no2.txt‘, a[0] + ‘--‘ + a[1] + ‘\n‘);                        
                    } else {
                         return writeRes(‘./has2.txt‘, a[0] + ‘--‘ + a[1] + "\n");
                    }
               })
          } else {
               writeRes(‘./error2.txt‘, a[0] + ‘--‘ + a[1] + ‘--‘ + res.statusCode + ‘\n‘);
          }
     });
     req.on(‘error‘, function(e) {
          writeRes(‘./error2.txt‘, a[0] + ‘--‘ + a[1] + ‘--‘ + e + ‘\n‘);
     })
     req.end();
},

//读取文件，获取需要抓取的页面
openFile = function(path, coding) {
     fs.readFile(path, coding, function(err, data) {
          var res = data.split("\n");    
          for (var i = 0, rl = res.length; i < rl; i++) {
               if(!res[i])
                    continue;
               postHttp(res, i);    
          };    
     })
};
openFile(‘./sites.log‘, ‘utf-8‘);

上面的代码大家应该都能看的懂！这里只是一个实验性的一些代码，具体的还要大家自己去研究研究！

nodejs抓取页面内容，并分析有无某些内容的js文件

标签：

原文地址：http://www.cnblogs.com/xjser/p/4968866.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行