自然语言交流系统 phxnet团队创新实训项目博客（十）

时间：2017-05-22 11:59:31 阅读：130 评论：0 收藏：0 [点我收藏+]

关于本项目中使用到的庖丁分词的总结：

Paoding 详细介绍

庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding‘s Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻，采用完全的面向对象设计，构思先进。

高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分，使能够将对词汇分类定义。

能够对未知的词汇进行合理解析

1. 从网上下载了一个庖丁解牛中文分词工具压缩包，放入D:\SoftwarePackage中。解压D:\SoftwarePackage中的paoding-analysis-2.0.4-beta压缩包到文件夹D:\software\paoding-analysis-2.0.4-beta中。

2. 新建Java工程PaodingAnalysisTest，在工程下新建文件夹lib,将解压后文件里面的paoding-analysis.jar以及lib目录下的commons-logging.jar,lucene-analyzer-2.2.0.jar,lucene-core-2.2.0.jar四个文件拷贝到lib目录下，在这里需要修改下paoding-analysis.jar里面的内容，用解压工具打开paoding-analysis.jar，修改paoding-dic-home.properties里面的内容，将#paoding.dic.home=dic修改成paoding.dic.home=E://WorkSpace//data//dic（此处路径可根据字典存放的位置进行相应更改），保存即可。

3. 右键单击工程->Properties->Java Build Path，在右侧选中第三个标签Libraries，点击Add JARs…，导入上述四个包；再选择第四个标签Order and Export，勾选上这四个包，点击OK按钮。

4. 然后创建一个主类，编写测试小程序（此程序是从网上copy过来的）

import java.io.*;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenStream;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

public class FenciTest{

/**

* @param args

public static voidmain(String[] args) {

// TODOAuto-generated method stub

Analyzeranalyzer=new PaodingAnalyzer();

StringdocText=null;

Filefile=new File("E:\\WorkSpace\\data\\FenciTest1.txt");

docText=readText(file);

TokenStreamtokenStream=analyzer.tokenStream(docText, newStringReader(docText));

try{

Tokent;

//System.out.println(docText);

while((t=tokenStream.next())!=null){

System.out.println(t);

}

}catch(IOExceptione){

e.printStackTrace();

}

private static StringreadText(File file) {

// TODOAuto-generated method stub

String text=null;

try{

InputStreamReaderread1=new InputStreamReader(newFileInputStream(file),"GBK");

BufferedReaderbr1=new BufferedReader(read1);

StringBufferbuff1=new StringBuffer();

while((text=br1.readLine())!=null){

buff1.append(text+"/r/n");

}

br1.close();

text=buff1.toString();

}catch(FileNotFoundExceptione){

System.out.println(e);

}catch(IOExceptione){

System.out.println(e);

}

return text;

}

如果您愿意花几块钱请我喝杯茶的话，可以用手机扫描下方的二维码，通过支付宝捐赠。我会努力写出更好的文章。
（捐赠不显示捐赠者的个人信息，如需要，请注明您的联系方式）
Thank you for your kindly donation！！

技术分享

自然语言交流系统 phxnet团队创新实训项目博客（十）

标签：分享 java space mon 网站面向标签 get img

原文地址：http://www.cnblogs.com/qiaoyanlin/p/6888487.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

自然语言交流系统 phxnet团队 创新实训 项目博客 （十）

自然语言交流系统 phxnet团队创新实训项目博客（十）