NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 ...
分类:
编程语言 时间:
2018-06-22 13:29:29
阅读次数:
215
安装jieba pip install jieba/或Spyder中安装,需在anaconda promote中conda install jiebajieba中默认精准模式21、全模式 2、精准 3、使用搜索引擎切分:cut_for_search 词性标注posseg 词典加载:(别忘了编码)ut ...
分类:
其他好文 时间:
2018-06-09 00:49:25
阅读次数:
255
HanLP中人名识别分析 在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: "名字识别的问题 387" "机构名识别错误" HanLP参考博客: "词性标注" "层叠HMM Viterbi角色标注模型下的机构名识别" 分词 在 "H ...
分类:
其他好文 时间:
2018-05-11 23:39:08
阅读次数:
768
HanLP用户自定义词典源码分析 1. 官方文档及参考链接 关于词典问题Issue,首先参考: "FAQ" 自定义词典其实是基于 规则 的分词,它的用法参考 "这个issue" 如果有些数量词、字母词需要分词,可参考: "P2P和C2C这种词没有分出来,希望加到主词库" 关于词性标注:可参考 "词性 ...
分类:
其他好文 时间:
2018-05-04 21:26:48
阅读次数:
579
---java实现---自然语言处理---用隐马尔科夫模型(HMM)实现词性标注---1998年1月份人民日报语料---learn---test---evaluation---Demo--- ...
分类:
编程语言 时间:
2018-05-03 20:47:09
阅读次数:
711
nlp词性标注 与分词函数不同,jieba库和pyltp库词性标注函数上形式相差极大。 jieba的词性标注函数与分词函数相近, 函数有两个参数,sentence是一段文本。 pyltp的词性标注函数 有一个参数,words是分词模块的返回值,或者是Python原生的list类型。 nltk中的词性 ...
分类:
其他好文 时间:
2018-04-27 02:17:29
阅读次数:
616
中文分词主要分为三个流派:机械式分词法(基于词典):简单来说就是建立一个巨大的词典,然后将词典中的词语和文章中的词语相匹配,找到这个词语就算匹配成功,但是词典的完备性得不到保证。也就是文章中的有的词语在词典中找不到。基于语法和规则的分词法:分词的同时在句法语义方面进行分析,利用句法信息和语义信息进行词性标注,解决分词的歧义。因为现在的语法句法还十分复杂,所以精度还不高。基于统计的分词法根据字符串在
分类:
其他好文 时间:
2018-04-24 11:50:25
阅读次数:
166
LTP(Language Technology Platform)由哈工大社会计算与信息检索研究中心开发,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。 LTP的源码是C++,也提供Java和Python版本。Python版本的安装方法是 ...
分类:
其他好文 时间:
2018-04-18 23:40:35
阅读次数:
1790
《统计自然语言处理》 一些基础理论概念,涉及统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘 ...
分类:
其他好文 时间:
2018-04-06 19:33:58
阅读次数:
150
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 ...
分类:
其他好文 时间:
2018-04-03 17:17:07
阅读次数:
164