一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 ...
分类:
其他好文 时间:
2018-03-27 21:57:22
阅读次数:
1318
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 ...
分类:
编程语言 时间:
2017-12-21 17:22:03
阅读次数:
232
背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。工具支持词性标注,所以就可以依据词性进行分词结果的过滤。 词性介绍 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名 ...
分类:
其他好文 时间:
2017-12-09 19:34:40
阅读次数:
239
NLPIR/ICTCLAS分词系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。系统还支持在线用户词典的输入,用户可以在右下方添加用户词... ...
分类:
其他好文 时间:
2017-12-04 16:42:05
阅读次数:
204
官网:https://pynlpir.readthedocs.io/en/latest/ github:https://github.com/tsroten/pynlpir NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLP... ...
分类:
编程语言 时间:
2017-09-21 16:44:55
阅读次数:
230
1.下载附加的中科院分词工具包(要下载的到我的博客里面免费下载就可以) 2.解压后会看到例如以下几个目录 3.把java工程导入eclipse中。点击import。再选择existing project into workspace 4.导入sample文件下的JnaTest_NLPIR的javap ...
分类:
编程语言 时间:
2017-07-30 11:42:40
阅读次数:
210
今年毕业时的毕设是有关大数据及机器学习的题目。因为那个时间已经步入前端的行业自然选择使用JavaScript来实现其中具体的算法。虽然JavaScript不是做大数据处理的最佳语言,相比还没有优势,但是这提升了自己对与js的理解以及弥补了一点点关于数据结构的弱点。对机器学习感兴趣的朋友还是去用 py ...
分类:
编程语言 时间:
2017-07-28 15:37:59
阅读次数:
251
在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。中文分词是中文信息处理的一个基础环节,已被广泛应用于中文文本处理、信息提取 ...
分类:
其他好文 时间:
2017-07-05 15:53:45
阅读次数:
176
Internet是全球信息共享的基础设施,是一种开放和面向 所有用户的技术。它一方面要保证信息方便、快捷的共享;另一方面要防止垃圾信息的传播。网络内容分析是一种管理信 息传播的重要手段。它是网络信息安全核心理论与关键技术 研究网络内容分析所涉及的新理论、新体系结构、新方法和新技术。 内容过滤技术一般 ...
分类:
其他好文 时间:
2017-06-12 17:06:51
阅读次数:
182
原文:http://blog.csdn.net/k21325/article/details/53052855 摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在wi ...
分类:
编程语言 时间:
2017-06-10 15:16:16
阅读次数:
218