码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
中文词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:其他好文   时间:2018-03-28 18:54:09    阅读次数:126
中文词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:其他好文   时间:2018-03-28 18:51:12    阅读次数:127
中文词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:其他好文   时间:2018-03-28 18:50:47    阅读次数:158
中文词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:其他好文   时间:2018-03-28 16:44:54    阅读次数:123
中文词频统计
题目: 下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) ...
分类:其他好文   时间:2018-03-28 01:40:05    阅读次数:209
中文词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:其他好文   时间:2018-03-27 22:26:40    阅读次数:223
jieba中文处理
一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 ...
分类:其他好文   时间:2018-03-27 21:57:22    阅读次数:1318
利用隐马尔科夫链(HMM)模型实现中文分词
1.什么是HMM? 隐马尔科夫链(HMM)是一个五元组: 隐状态集合 ; 观测状态集合; 状态概率转移矩阵; 观察状态概率矩阵; 初始状态概率分布; 2.HMM有两个假设: 齐次马尔可夫链假设:任意时刻的隐藏状态只依赖与前一时刻的隐藏状态。 观测独立性假设:任意时刻的观察状态,只依赖与当前时刻的隐藏 ...
分类:其他好文   时间:2018-03-27 16:46:56    阅读次数:193
R语言-文本挖掘
恢复内容开始 案例1:对主席的新年致辞进行分词,绘制出词云 掌握jieba分词的用法 1.加载包 2.导入数据 3.清洗数据 4.移除感叹词 5.绘制词云 案例2:通过拉勾网的数据进行分析,找出数据分析师相关的城市,薪水,工作年限等信息 数据集下载:链接:https://pan.baidu.com/ ...
分类:编程语言   时间:2018-03-27 02:01:09    阅读次数:957
全文检索基础
一、全文检索基础 1、信息源 --> 分词器 --> 建立索引库 2、文本在建立索引和搜索的时候,都会先进行分词 3、索引库的结构 索引表:存放具体词汇,哪些词汇在哪些文档里面存储。索引表里面存储的就是分词器分词之后的结果 数据源:文本信息集合 4、用户搜索时,首先经过分词器进行分词,然后去索引表里 ...
分类:其他好文   时间:2018-03-27 01:58:04    阅读次数:213
2158条   上一页 1 ... 83 84 85 86 87 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!