码迷,mamicode.com
首页 > Web开发 > 详细

简单实现nodejs爬虫工具

时间:2018-03-11 17:50:06      阅读:228      评论:0      收藏:0      [点我收藏+]

标签:window   web   for   title   tps   +=   http   irb   简单   

约30行代码实现一个简单nodejs爬虫工具,定时抓取网页数据。

 

使用npm模块

request---简单http请求客户端。(轻量级)
fs---nodejs文件模块。
 
index.js
var request = require(‘request‘);
var fs = require("fs");

var JJurl = "https://recommender-api-ms.juejin.im/v1/get_recommended_entry?suid=6bYFY7IRbfmijiJeeeIQ&ab=welcome_3&src=web"
var title = ""

var options = {
    uri: JJurl,
    headers: {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘,
    },
    json: true
};

setInterval(function() {
    request(options, function(error, response, body) {
        if (!error) {
            for (var i in body.d) {
                title += body.d[i].title + "\n"
            }
            fs.writeFile(‘./result.txt‘, title, function(err) {
                if (err) {
                    throw err;
                }
            });
        } else {
            console.log(‘抓取失败‘)
        }
    });
}, 5000);

 

PS: 建议设置用户代理。防止请求被拒绝。
 

简单实现nodejs爬虫工具

标签:window   web   for   title   tps   +=   http   irb   简单   

原文地址:https://www.cnblogs.com/Sroot/p/8543897.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!