1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 ...
分类:
编程语言 时间:
2020-06-27 20:32:04
阅读次数:
125
何晗:HanLP:面向生产环境的自然语言处理工具包 清华:THULAC:一个高效的中文词法分析工具包 搜狗:搜狗实验室分词和词性标注 斯坦福:CORENLP 哈工大:LTP:语言技术平台(Language Technology Platform) NLPIR:NLPIR 中科大:科大讯飞 云孚科技 ...
分类:
其他好文 时间:
2020-06-26 22:09:35
阅读次数:
413
词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程 分词,命名实体识别,词性标注 并称 汉语词法分析“三姐妹”。 在线演示平台:http://ictclas.nlpir.org/nlpir/ 词性标注(Part-Of-Speech tagging, POS t ...
分类:
其他好文 时间:
2020-06-26 01:03:06
阅读次数:
93
中文词法分析 中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示 中文词法分析难点 重叠词,离合词,词缀 中文词语的切分歧义 中文未定义词 词性标注 解决方法: 基于词典的机械切分算法 基于规则的切分算法 基于统计的切分算法 对于未登录词的处理。未登 ...
分类:
其他好文 时间:
2020-06-25 19:54:40
阅读次数:
51
词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程 分词;词性标注;实体识别 这一部分是NLP的基础,应该是入门就要了解的内容。 所谓分词,就是断句,把一条句子断开;要求断的比较碎,每个词都断开;要断的正确,也就是每个词都是有意义的,符合逻辑。 有个注明分词工 ...
分类:
其他好文 时间:
2020-06-25 19:24:50
阅读次数:
59
一、NLP的研究任务 机器翻译; 情感分析; 智能问答; 文摘生成; 文本分类:采集各种文章,进行主题分析,从而进行自动分类; 舆论分析; 知识图谱:知识点相互连接而成的语义网络。 二、基本术语 分词; 词性标注:对动词、名词、形容词等进行词性标注。eg:我/r 爱/v 北京/ns 天安门/ns; ...
分类:
其他好文 时间:
2020-06-23 01:13:11
阅读次数:
89
目录 NLP基本流程 NLP应用场景 NLP技术流 一、自然语言处理的基本流程 分词 命名实体识别,主要有人名,地名,机构名等 词性标注,对分词后的词语进行语义标注 句法分析,主要是要构建语法树,标注单词,短语,句子的语法 语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注,... ...
分类:
其他好文 时间:
2020-05-24 23:52:29
阅读次数:
90
1.概述 Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型,在单个模型中完成中文分词、词性标注、专名识别任务。我们在自建的数据集上对分词、词性标注、专名识别进行整体的评估效果。主要通过标注来完成这些任务。 2.预测和损失函数 标注问题一般用crf来作为损 ...
分类:
其他好文 时间:
2020-05-21 00:32:49
阅读次数:
74
自我总结一下总的这四类里面; 两句话之间的关系; 这句话的意思; 根据这段话找出答案; 词性标注、NER识别 图片裁剪可能比较模糊,如果哪里实在看不清请评论中指出来 ...
分类:
其他好文 时间:
2020-04-30 23:32:13
阅读次数:
103
1、pyltp简介 pyltp 是哈工大自然语言工作组推出的一款基于Python 封装的自然语言处理工具(轮子),提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。 2、pyltp安装方法 安装环境:windows10,python3.6 2.1.安装pyltp库 安装方法一:使 ...
分类:
其他好文 时间:
2020-04-27 13:10:34
阅读次数:
365