"CoreNLP" 是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part of speech (POS) tagger)、命名实体识别(named entity recognizer (NER))、情感分析(sentiment analysis)等功能。 【开源中文分词工具探析 ...
分类:
其他好文 时间:
2018-02-07 22:45:58
阅读次数:
902
api参考地址:https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度 基本用法: 也可以自定义词组 词性标注 ...
分类:
编程语言 时间:
2017-12-28 14:03:16
阅读次数:
187
概念 统计语言模型:是描述自然语言内在的规律的数学模型。广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。简单地说,语言模型就是 用来计算一个句子的概率的模型 即P(W1,W2,W3....WK)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一 ...
分类:
编程语言 时间:
2017-12-22 00:42:19
阅读次数:
245
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 ...
分类:
编程语言 时间:
2017-12-21 17:22:03
阅读次数:
232
背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。工具支持词性标注,所以就可以依据词性进行分词结果的过滤。 词性介绍 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名 ...
分类:
其他好文 时间:
2017-12-09 19:34:40
阅读次数:
239
实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。实体识别可以简单理解为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注。因为同是序列标注问题,除去实体识别之外,相同的技术也可以去解决诸如分词、词性标注等不同的自然语言处理问题。 说到序列标注直觉是会想到RNN的结构。现在 ...
分类:
其他好文 时间:
2017-12-05 18:52:57
阅读次数:
399
NLPIR/ICTCLAS分词系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。系统还支持在线用户词典的输入,用户可以在右下方添加用户词... ...
分类:
其他好文 时间:
2017-12-04 16:42:05
阅读次数:
204
简介 支持分词模式Search模式,用于对用户查询词分词Index模式,用于对索引文档分词特性支持多种分词模式全角统一转成半角用户词典功能conf 目录有整理的搜狗细胞词库因为性能原因,最新的快照版本去除词性标注,也希望有更好的 Pull Request 可以提供该功能。 简单使用 获取jieba- ...
分类:
编程语言 时间:
2017-11-07 16:26:25
阅读次数:
316
安装nltk.参考:http://www.cnblogs.com/kylinsblog/p/7755843.html NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。 下面介绍如何利用NLTK快速完成NL ...
分类:
其他好文 时间:
2017-10-31 18:40:53
阅读次数:
158
1 中文自然语言预处理 实验数据预处理(本文采用python版结巴分词) 1.对于爬取的评论做分词和词性标注处理(mac-result.txt) 2.对于结果只用公版的停用词表去停用词,不进行人工筛选(mac-result1.txt) 3.对词性进行选择,自定义保留词性,如下例子: 保留:名词,名词 ...
分类:
编程语言 时间:
2017-10-16 12:15:18
阅读次数:
278