码迷,mamicode.com
首页 > 其他好文 > 详细

中文新闻文本分类

时间:2015-04-29 21:13:29      阅读:734      评论:0      收藏:0      [点我收藏+]

标签:

 
下载搜狗新闻语料库
 
 
1.  下载ictclas4j

  后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip

2.  在Eclipse中新建项目并进行相关配置

  首先把 ictclas4j解压缩,然后把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 而 bin目录下的 org文件夹整个拷贝到你Eclipse项目的 bin目录下,把src目录下的org文件夹整个拷贝到 Eclipse项目 的src目录下。

3.  导入外部包commons-lang-2.0.jar和ectclas4j.jar包
 
4
.
       1)   在Eclipse中新建一个java project(如:weka)

2)   按照上述第1,2,3的步骤配置好ictclas4j

3)   在weka文件目录中新建destFile目录(用于存放分词和去停用词后的结果)和srcFile目录(用于存放需要分词的文本文件和停用词表)

               技术分享技术分享
 
用以下代码将每个class里的300个测试数据进行分词,输出到destFile中
 
package weka;
 
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.util.*;

import org.ictclas4j.bean.SegResult;  
import org.ictclas4j.segment.SegTag;
//import ICTCLAS.I3S.AC.ICTCLAS50;

public class FileExcludeStopWord {
    //停用词词表
    public static final String stopWordTable = "." + File.separator + "srcFile" + File.separator + "StopWordTable.txt";

    public static void main(String[] args) {

        //源文件和目的文件
        String srcFile = "." + File.separator + "srcFile" + File.separator + "酒店评论.txt";
        String destFile = "." + File.separator + "destFile" + File.separator + "酒店评论.txt";
        new FileExcludeStopWord().fileExcludeStopWord(srcFile, destFile);
    }
    
    public void fileExcludeStopWord(String srcFile,String destFile){
        try {
            //读取原文件和停用词表
            BufferedReader srcFileBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(srcFile))));
            BufferedReader StopWordFileBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(stopWordTable))));
            
            //将去除停用词的文本信息存入输出文件
            BufferedWriter destFileBw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File(destFile))));
            
            //用来存放停用词的集合
            Set<String> stopWordSet = new HashSet<String>();
            
            //初始化停用词集
            String stopWord = null;
            for(; (stopWord = StopWordFileBr.readLine()) != null;){
                stopWordSet.add(stopWord);        
            }            
            
            String paragraph = null;
            for(; (paragraph = srcFileBr.readLine()) != null;){
                //对读入的文本进行分词
                SegTag segTag = new SegTag(1);// 分词路径的数目          
                SegResult segResult = segTag.split(paragraph);
                String spiltResultStr = segResult.getFinalResult();    
                //得到分词后的词汇数组,以便后续比较
                String[] resultArray = spiltResultStr.split(" ");
                                
                //过滤停用词            
                for(int i = 0; i< resultArray.length; i++){
                    //System.out.println(resultArray[i]);
                    if(stopWordSet.contains(resultArray[i])){
                        resultArray[i] = null;
                    }
                    //System.out.println(resultArray[i]);    
                }
                
                //把过滤后的字符串数组存入到一个字符串中
                StringBuffer finalStr = new StringBuffer();
                for(int i = 0; i< resultArray.length; i++){
                    if(resultArray[i] != null){
                        finalStr = finalStr.append(resultArray[i]).append(" ");
                    }
                }
                
                //将过滤后的文本信息写入到指定文件中
                destFileBw.write(finalStr.toString());
                destFileBw.newLine();
                //输出最后的去停用词之后的结果
                System.out.println(finalStr);
            }
            
            //关闭输入流
            destFileBw.close();
            StopWordFileBr.close();
            srcFileBr.close();            
            
        } catch (FileNotFoundException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch(Exception e){
            e.printStackTrace();
        }
    }
}
 
将分好的900个新闻文本分成三类,每类放到一个文件夹中,class1,class2,class3,然后将三个文件夹放到training_1.0目录下。
 
建立新目录,一个放training_1.0  一个放my_arff_sava_path
技术分享
 
 
在控制台下进入data_mining目录,输入以下指令
 
 java weka.core.converters.TextDirectoryLoader -dir training_1.0 > my_arff_save_path/data.arff
 
java weka.filters.unsupervised.attribute.StringToWordVector -I -C -i my_arff_save_path/data.arff -o my_arff_save_path/data_vsm.arff -c last 
 
java weka.filters.supervised.attribute.Discretize -i my_arff_save_path/data_vsm.arff -o my_arff_save_path/data_D_vsm.arff -c first
 
得到data_D_vsm.arff
 
技术分享
 
 
 
测试
 
import java.io.File;
 
import weka.classifiers.Classifier;
import weka.classifiers.trees.J48;
import weka.core.Instances;
import weka.core.converters.ArffLoader;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.util.*;
 
 
public class weka {
 
         public static void main(String[] argsthrows Exception {
            
            
             BufferedWriter destFileBw = new BufferedWriter( new OutputStreamWriter(new FileOutputStream(newFile("E://data.txt" ))));
            
 
            
          // TODO Auto-generated method stub
          Classifier m_classifier = new J48();
             File inputFile = new File( "E://data_D_vsm.arff" );//训练语料文件
             ArffLoader atf = new ArffLoader();
             atf.setFile( inputFile);
             Instances instancesTrain = atf .getDataSet(); // 读入训练文件 
          
             inputFile = new File( "E://data_D_vsm.arff" );//测试语料文件
             atf.setFile( inputFile);       
             Instances instancesTest = atf .getDataSet(); // 读入测试文件
          
             instancesTest.setClassIndex(0); //设置分类属性所在行号(第一行为0号),instancesTest.numAttributes()可以取得属性总数
             double sum = instancesTest .numInstances(), //测试语料实例数
             right = 0.0f;
             instancesTrain.setClassIndex(0);
             m_classifier.buildClassifier( instancesTrain ); //训练         
            
            
             for( int   i = 0; i < sum ; i ++) //测试分类结果
             {      
               double predicted = m_classifier.classifyInstance( instancesTest .instance( i));
                 System. out.println( "预测某条记录的分类id:" predicted + ", 分类值:"
                         + instancesTest.classAttribute().value(( intpredicted));
                 destFileBw.write( "预测某条记录的分类id:" predicted ", 分类值:"
                         + instancesTest.classAttribute().value(( intpredicted));
                 destFileBw.newLine();
                 System. out.println( "测试文件的分类值: " instancesTest .instance(i ).classValue() + ", 记录:"
                         + instancesTest.instance( i ));
                 destFileBw.write( "测试文件的分类值: " instancesTest .instance(i).classValue() + ", 记录:"
                         + instancesTest.instance( i ));
                 destFileBw.newLine();
                 System.out .println("--------------------------------------------------------------" );
                 destFileBw.write( "--------------------------------------------------------------" );
                 destFileBw.newLine();
               
                 if( m_classifier .classifyInstance(instancesTest .instance( i ))== instancesTest .instance(i).classValue())//如果预测值和答案值相等(测试语料中的分类列提供的须为正确答案,结果才有意义)
 
                 {
                   right++; //正确值加1
                 }
                
             }
             System. out.println( "J48 classification precision:" +(right /sum ));
  
            
             destFileBw.write( "J48 classification precision:" +(right /sum ));
             destFileBw.newLine();
             destFileBw.close();
     }
 
}
 
将控制台的信息输出到data.txt中
 

中文新闻文本分类

标签:

原文地址:http://www.cnblogs.com/wolfxiao/p/4466891.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!