码迷,mamicode.com
首页 > 编程语言 > 详细

java爬虫爬取的html内容中空格( )变为问号“?”的解决方法

时间:2016-07-24 11:48:50      阅读:376      评论:0      收藏:0      [点我收藏+]

标签:

  用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的 全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一下,大概意思是显示的这个问号其实并不是问号,是乱码,主要是由于编码的问题导致的。

 

解决方法如下:

 

//替换抓取内容中“ ”变为问号的问题
try {
        intro = new String(intro.getBytes(),"GBK").replace(‘?‘, ‘ ‘).replace(‘ ‘, ‘ ‘);
} catch (Exception e){
        e.printStackTrace();
}

其中replace(‘ ‘, ‘ ‘)中,前面哪一个空格是全角空格。

 

参考链接:

http://bbs.csdn.net/topics/360072952

 

java爬虫爬取的html内容中空格( )变为问号“?”的解决方法

标签:

原文地址:http://www.cnblogs.com/blue163/p/5700202.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!