基于JAVA的IKAnalyzer中文分词运用

时间：2019-02-03 22:10:17 阅读：464 评论：0 收藏：0 [点我收藏+]

一、前提

IKAnalyzer分词器常应用于大数据开发的数据准备阶段，它能对任意长的文字进行关键字提取、文字重组、数据清洗等二次处理，并将处理好的关键数据通过某种分割符重新拼接起来，形成一个可用于进行机器学习的数据集。

二、准备阶段

使用eclipse创建一个Maven工程，通过配置pom.xml文件来导入IKAnalyzer的jar包，我这用导入的是ikanalyzer-2012_u6.jar，然后在src目录下分别创建IKAnalyzer.cfg.xml、extend.dic、stopword.dic这三个文件，然后再去百度新闻中截取一段新闻内容进行处理。

新闻内容:

多次说幸福都是奋斗出来的，奋斗本身就是一种幸福。辛勤奋斗的人生是精彩的，也值得点赞。2019年1月16日，在河北雄安新区规划展示中心，通过大屏幕连线京雄城际铁路雄安站建设工地现场。他对现场施工人员说：“现在是数九寒冬、天寒地冻，但我们的铁路建设者仍然辛勤劳动着。在此，我代表党中央，向你们并通过你们向全国所有的铁路建设者、劳动者们致以亲切的问候和良好的祝愿！”他勉励大家说，你们正在为雄安新区建设这个“千年大计”做着开路先锋的工作，功不可没。

配置IKAnalyzer.cfg.xml:

技术图片

extend.dic：扩展词典，是为了让需要切分的语句里面的词根据扩展词典里的词进行比较，对此进行拼接，不切分。

设置extend.dic：

技术图片

stopword.dic:停止词典，将语句与停用词典进行比较，直接将无用词进行删除

设置stopword.dic:

技术图片

三、代码

创建一个ik.java文件，代码如下:

技术图片

四、运行结果

(1)未加载extend.dic和stopword.dic的情况：

多次说幸福都是奋斗出来的奋斗本身就是一种幸福辛勤奋斗的人生是精彩的也值得点赞 2019年 1月 16日在河北雄安新区规划展示中心通过大屏幕连线京雄城际铁路雄安站建设工地现场他对现场施工人员说现在是数九寒冬天寒地冻但我们的铁路建设者仍然辛勤劳动着在此我代表党中央向你们并通过你们向全国所有的铁路建设者劳动者们致以亲切的问候和良好的祝愿他勉励大家说你们正在为雄安新区建设这个千年大计做着开路先锋的工作功不可没

(2) 加载extend.dic和stopword.dic的情况

多次说幸福都是出来本身就是幸福辛勤人生是精彩的也值得点赞 2019年1月16日在河北雄安新区展示中心通过大屏幕连线京雄城际铁路雄安站建设工地他对施工人员说现在是数九寒冬天寒地冻但我们铁路建设者仍然辛勤劳动着在此我代表党中央向你们并通过你们向全国所有铁路建设者劳动者们致以亲切问候和良好祝愿他勉励大家说你们正在为雄安新区建设这个千年大计做着开路先锋工作功不可没

五、注意事项

修改extend.dic和stopword.dic文件最好使用Notepad++工具，文字编码格式为UTF-8编码

基于JAVA的IKAnalyzer中文分词运用

标签：切分技术学习处理 end 机器学习 jar包 not ++

原文地址：https://www.cnblogs.com/zjkf8686/p/10351093.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行