标签:
常用来做中文文本分析的一个包是Rwordseg,虽然很久没见更新了,但是在做中文分词时,它还是一个很好地选择。Rwordseg包的安装很容易出错,不管是在windows还是在Linux的系统下。之前在windows系统下装过一次,各种纠结最后搞定,最近转战Redhat又重新遭遇各种新问题。还是把过程记录下来,留作以后查看。
Rwordseg依赖包rJava,但是安装rJava包也是一个比较纠结的过程。首先说明下如何安装rJava。rJava是R程序和Java的一个接口,所以首先你必须确认你的系统中已经有可用的Java。java –version,可以查看到你的系统中是否已经有安装Java。
1. 安装Java
yum install jdk #Linux操作命令yum会默认安装最新版本,如果你需要自己定义版本可以找到下载源后,在源码安装,安装方法也很简答,不再细说,给一个jdk的下载链接,是java官网,选择你需要的版:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html。有一点很重要:Java的版本必须和R的版本保持一致,都是64位的或者都是32位的,否则会出现版本不兼容的问题,这个在Windows系统下也是一样。所以选择yum安装要慎重。
2. Java环境配置
在/etc/profile文件最后添加线线面三个参数,JAVA_HOME,PATH和CLASSPATH,export不能少。并且最后记得source你刚刚编辑过的文件,这样配置才能生效。在这之前如果你已经安装了Java有可能也已经配置了java的环境,你可以用命令行echo $PATH,查看PATH下是否有java的bin的路径存在,echo $JAVA_HOME,echo $CLASSPATH可以分别查看相应的参数。
vi /etc/profile #Linux操作命令 export JAVA_HOME=/usr/java/jdk1.7.0_45 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar source/etc/profile #Linux操作命令
3. R读取java配置
Linux命令行操作如下,这一步R更新其中的Java配置,否则你刚刚配置的Java环境在R中就不会立即生效:
R CMD javareconf #Linux操作命令
4. 安装rJava及Rwordseg
安装过程如下:
R #Linux操作命令,打开R程序 install.packages("rJava") install.packages("Rwordseg",repos = "http://R-Forge.R-project.org")一般情况下这两个直接安装都没问题,但是有时候后者安装会提示Rwordseg包不支持这个版本的R,这时可以将Rwordseg包下载下来后再用R CMD命令安装。Rwordseg下载地址:http://download.r-forge.r-project.org/src/contrib/Rwordseg_0.2-1.tar.gz。
wget http://download.r-forge.r-project.org/src/contrib/Rwordseg_0.2-1.tar.gz R CMD INSTALL Rwordseg_0.2-1.tar.gz
5. 测试
这个当然就是在R中看Rwordseg的方法能否正常使用了。用其中做分词的方法segmentCN来看,结果如下:
library(Rwordseg) segmentCN("人生若只如初见")
有任何问题或建议欢迎指出。
转载请务必注明来源,谢谢!
标签:
原文地址:http://blog.csdn.net/cl1143015961/article/details/46315765