码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
基于词典的中文分词算法3:最大概率法
最大概率法分词是在最大匹配分词算法上的改进。 在某些语句切分时,按最大长度切分词语可能并不是最优切分。 而不按最优长度切分词语,则同一语句会出现多种切分结果。 计算每种切分结果的概率,选取概率最高的切分作为最优分词切分。 http://www.shizhuolin.com/?p=1860 ...
分类:编程语言   时间:2020-07-04 13:18:35    阅读次数:76
基于词典的中文分词算法1:最大匹配法
https://www.cnblogs.com/dahuang123/p/11990651.html https://www.cnblogs.com/by-dream/p/6429615.html https://zhuanlan.zhihu.com/p/103392455 ...
分类:编程语言   时间:2020-07-04 13:18:19    阅读次数:75
基于词典的中文分词算法2:最少分词法
最少切分分词算法 该分词算法依据最少切分原则,从几种分词算法切分结果中取切分词数最少一种的。 比如,从正向最大匹配和逆向最大匹配两者中选择词数较少的方案,当词数相同时,采取某种策略,选择其中一个。 https://blog.csdn.net/cuixianpeng/article/details/4 ...
分类:编程语言   时间:2020-07-04 13:07:34    阅读次数:71
Python常用功能函数系列(一)
本节目录 常用函数一:获取指定文件夹内所有文件 常用函数二:文本分词 常用函数三:词频统计 常用函数四:数据去重 写在前面 写代码也有很长时间了,总觉得应该做点什么有价值的事情,写代码初始阶段觉得做更多的项目,积累更多的经验是自己应该做的事情,这样可以使自己短时间内技术水平获得较大的提升。随着代码量 ...
分类:编程语言   时间:2020-07-04 01:44:15    阅读次数:69
jieba和词云
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:其他好文   时间:2020-07-04 01:18:52    阅读次数:87
理想的数据分析平台
数据分析尤其是大数据分析这几年的热度依然不减,但面对眼花缭乱的数据分析产品很难去选择,那什么是理想的数据分析平台呢。下面是根据我的个人理解的理想数据分析平台,在次强调我理想的数据分析平台。不要对号入座。在这里我并没有强调大数据分析平台,因为很多时候小数据分析都没有做好的情况下,谈大数据分析有点早,我一向的观点都是先把简单的少量的做好,才有机会做大量的复杂的平台。有句话叫不扫一屋何以扫天下。既然谈到
分类:其他好文   时间:2020-06-29 15:13:52    阅读次数:106
Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云
1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 ...
分类:编程语言   时间:2020-06-27 20:32:04    阅读次数:125
NLP实验计划
1. 实验环境配置 安装IDE :VS Code;安装Python,安装 jieba,hanLP等NLP工具。 简单的程序练习,不需要特别熟练,能在指导下完成操作即可。 做最简单中文分词程序测试环境。 2. 文本可视化:词云、关系图、热力图等 制作词云,进一步了解分词和词频。 https://blo ...
分类:其他好文   时间:2020-06-27 00:10:11    阅读次数:88
NLP在线演示
何晗:HanLP:面向生产环境的自然语言处理工具包 清华:THULAC:一个高效的中文词法分析工具包 搜狗:搜狗实验室分词和词性标注 斯坦福:CORENLP 哈工大:LTP:语言技术平台(Language Technology Platform) NLPIR:NLPIR 中科大:科大讯飞 云孚科技 ...
分类:其他好文   时间:2020-06-26 22:09:35    阅读次数:413
词法分析:词性标注
词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程 分词,命名实体识别,词性标注 并称 汉语词法分析“三姐妹”。 在线演示平台:http://ictclas.nlpir.org/nlpir/ 词性标注(Part-Of-Speech tagging, POS t ...
分类:其他好文   时间:2020-06-26 01:03:06    阅读次数:93
2158条   上一页 1 ... 6 7 8 9 10 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!