码迷,mamicode.com
首页 > 其他好文 > 详细

R读取中文文件的问题

时间:2014-07-29 21:29:02      阅读:214      评论:0      收藏:0      [点我收藏+]

标签:style   blog   color   文件   问题   div   log   table   

用R读取中文文本(UTF-8),经常无端出错,常常指定了sep="\t“,结果仍然有字段内部仍然包含"\t"。分隔符换成 ”,"也不行!

更郁闷的是,read.table 读出来的域数量,竟然比 count.fields 返回的少。

最终解决的方法是,在分隔符前后加上空格。读取的时候再把空格去掉,这样问题就解决了。有相同问题的可以试试。

cat  data.csv | iconv -f UTF-16 -t UTF-8 | sed "s/\t/ \t /g" > df.csv
read.csv("df.csv", sep="\t", header=TRUE, encoding="UTF-8", strip.white=TRUE)

 

R读取中文文件的问题,布布扣,bubuko.com

R读取中文文件的问题

标签:style   blog   color   文件   问题   div   log   table   

原文地址:http://www.cnblogs.com/kidoln/p/3876140.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!