python环境是Anaconda3安装的,由于项目需要用到git的第三方包,但是在conda自带的环境中没有。 例如使用jieba分词库。 安装的三种方式: (1)全自动安装:`easy_install jieba` 或者 `pip install jieba` / `pip3 install j ...
分类:
编程语言 时间:
2019-08-09 13:27:59
阅读次数:
301
第一步:先导入jieba分词包 第二步:使用jieba分词的方法 常用的有:jieba.cut()、jieba.cut_for_search()和jieba.posseg.cut() 前者是无词性分词,中间为浏览器搜索,后者是有词性分词 其中jieba.cut()中除了需要加入被拆分的字符串还可以加 ...
分类:
编程语言 时间:
2019-07-07 17:48:58
阅读次数:
158
1.jieba分词的安装 直接在cmd窗口当中pip install即可 2.jieba分词的介绍 jieba分词是目前比较好的中文分词组件之一,jieba分词支持三种模式的分词(精确模式、全模式、搜索引擎模式),并且支持自定义词典(这一点在特定的领域很重要,有时候需要根据领域的需要来添加特定的词典 ...
分类:
编程语言 时间:
2019-07-04 00:50:31
阅读次数:
168
隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程。 本文阅读了2篇blog,理解其中的意思,附上自己的代码,共同学习。 一、理解隐马尔科夫 1.1 举例理解 来源:< http://www.cnblogs.com/skyme/p/46513 ...
分类:
其他好文 时间:
2019-06-28 17:59:55
阅读次数:
122
不同分词工具原理解析 对各种分词工具的介绍,具体参考: http://www.cnblogs.com/en-heng/p/6234006.html 具体参考: https://blog.csdn.net/rav009/article/details/12196623 jieba分词原理解析 采用的是 ...
分类:
其他好文 时间:
2019-06-14 22:08:31
阅读次数:
1527
知识点 1、wiki词库处理 繁体字转为简体字 2、对简体语料库进行jieba分词 3、word2vec建模 4、加载模型,预测 ...
分类:
其他好文 时间:
2019-06-11 12:42:31
阅读次数:
103
我感觉学习python有一个阶段就是熟悉它的各种第三方库的使用,这次我们用jieba分词,用wordcloud生成词云,用pyecharts生成柱状图,来看看吧~ 若您有需要,所有文件已上传到我的github(左上角图标直达)~ 从爬虫开始好了,猫眼电影电脑网页版只能看热门影评。其实为了获取更多影评 ...
分类:
其他好文 时间:
2019-04-30 13:51:15
阅读次数:
143
1 import jieba 2 """函数2:分词函数""" 3 def fenci(training_data): 4 """------------------------------------------------------- 5 seg_list = jieba.cut("他来到上海... ...
分类:
编程语言 时间:
2019-04-24 23:32:13
阅读次数:
175
恢复内容开始 运用jieba库分词 一、jieba库基本介绍 1、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 2、jieba分词的原理 J ...
分类:
其他好文 时间:
2019-04-04 22:58:40
阅读次数:
242
简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下: ...
分类:
编程语言 时间:
2019-02-17 20:50:29
阅读次数:
239