pyltp的简介 语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台。它提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等。 pyltp 是 LTP 的 ...
分类:
其他好文 时间:
2019-01-31 19:14:54
阅读次数:
1077
摘要:本文在Linux Ubuntu1804下Python3.6.5环境中实现了StanfordNLP的词性标注。<!--?xml:namespace prefix = "o" ns = "urn:schemas-microsoft-com:office:office" /--> 1. 写在前面 《 ...
分类:
编程语言 时间:
2018-11-25 13:20:47
阅读次数:
367
基于Spring Boot的微服务搭建:基于先前中文词性标注系统,将应用发布为服务 ...
分类:
编程语言 时间:
2018-11-13 18:04:59
阅读次数:
195
Hanlp HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁 Hanl ...
分类:
编程语言 时间:
2018-11-04 01:40:20
阅读次数:
279
软件简介 THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约 ...
分类:
其他好文 时间:
2018-10-31 12:35:48
阅读次数:
215
词性标注标注语料库;各词性标注及其含义自动标注器;默认标注器;正则表达式标注器;查询标注器;N-gram标注器;一元标注器;分离训练和测试数据;一般的N-gram的标注;组合标注器;标注生词;储存标注器;性能限制;跨句子边界标注;隐马尔科夫标注器;生成模式;确定模式;非确定模式;隐藏模式;隐马尔科夫模型HMM是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程,难点在于从可观察的参数中确定此
分类:
编程语言 时间:
2018-10-02 17:53:43
阅读次数:
212
1.词性标注器 parts-of-speech 或 POS tagger nltk自带英文标注器 import nltk text = nltk.word_tokenize("And now for something completely different")#list print(nltk.p ...
分类:
其他好文 时间:
2018-08-24 14:56:34
阅读次数:
236
1、利用结巴分词对中文句子进行分词,词性标注(词性标注使用的词性兼容了ICTCLAS汉语词性标准) 参考https://gist.github.com/luw2007/6016931 2、将词的文本和词性打包,视为“词对象”,对应 :class:Word(token,pos) 3、利用REfo模块对 ...
分类:
其他好文 时间:
2018-08-03 19:55:06
阅读次数:
1526
1. CC Coordinating conjunction 连接词2. CD Cardinal number 基数词3. DT Determiner 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either ...
分类:
其他好文 时间:
2018-07-26 00:23:11
阅读次数:
229
http://blog.sina.com.cn/s/blog_605f5b4f010109z3.html 首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像词性标注,True casing。但隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的 ...
分类:
其他好文 时间:
2018-06-29 19:27:07
阅读次数:
194