爬虫中gbk网页内容的处理

时间：2015-11-30 02:11:00 阅读：172 评论：0 收藏：0 [点我收藏+]

标签：

　　有些网站仍在使用GBK编码，而JS内部字符编码使用Unicode来表示，node编写的爬虫需要做的转换是GBK->Unicode->utf-8,关于三者关系参考http://www.cnblogs.com/cy163/archive/2007/05/31/766886.html。

var request = require(‘request‘);
var cheerio = require(‘cheerio‘);
request(‘http://www.taobao.com/‘,function(err,res){
    if(err) throw err;
   var $ = cheerio.load(res.body.toString());
   console.log($(‘head title‘).text());  
});

　　上例输出空白，因为某宝网就是使用GBK编码，而node把GBK的页面内容当作Unicode编码，来UTF-8来处理。可以使用iconv-lite模块来处理。

var request = require(‘request‘);
var cheerio = require(‘cheerio‘);
var iconv = require(‘iconv‘);
request({
    url:‘http://www.taobao.com‘,
    encoding:null//设置抓取页面时不要对数据做任何转换
    },function(err,res,body){
    if(err) throw err;
    body = iconv.decode(body.‘gbk‘);//转换gbk编码的页面内容
    var $ = cheerio.load(body);
   console.log($(‘head title‘).text());  
});

　　也可以使用gbk模块来处理此问题

var cheerio = require(‘cheerio‘);
var gbk= require(‘gbk‘);
gbk.fetch(‘http://www.taobao.com/‘,‘utf-8‘).to(‘string‘,function(err,res,body){
    if(err) throw err;
    var $ = cheerio.load(body);
   console.log($(‘head title‘).text());  
});

　　此时输出了页面标题。

爬虫中gbk网页内容的处理

标签：

原文地址：http://www.cnblogs.com/kisslight/p/5006086.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行