码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
jieba库应用 python
应用实例: 准备一个txt文件 import jieba txt = open("三国演义.txt","r", encoding = 'gbk',errors='ignore').read() #读取已存好的txt文档 words = jieba.lcut(txt) #进行分词 counts = { ...
分类:编程语言   时间:2020-02-09 16:33:19    阅读次数:84
es学习(三):分词器介绍以及中文分词器ik的安装与使用
什么是分词 把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。 示例 如果想在某个索引下进行分词 es内置分词器 standard:默认分词,单词会被拆分,大小会转换为小写。 simple:按照非字母分词。大写转为小写。 ...
分类:其他好文   时间:2020-02-09 12:03:10    阅读次数:87
SEVEN python环境jieba分词的安装 以即热词索引
由于项目需要,使用jieba分词库 点击项目,默认设置,选择项目翻译点击右侧 + , 查询jieba ,点击左下角安装 还有一个放法(此方法未使用) 首先上githup下载jieba分词库 然后加压到任意目录 打开cmd命令行窗口并切换到jieba目录下 运行python setup.py inst ...
分类:编程语言   时间:2020-02-07 20:46:34    阅读次数:86
统计语言模型
概念 统计语言模型是NLP的基础,是描述自然语言内在的规律的数学模型。广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注等。 简单地说,统计语言模型就是给定一个句子W(由多个单词w1,w2,w3...组成),计算该句子可信(合理)的概率的模型,即$P(W)=P(w_1,w_2,w_ ...
分类:编程语言   时间:2020-02-07 16:29:54    阅读次数:63
Python——课程数据统计分析
介绍 为训练营课程 《Python 数据分析入门与进阶》的第八节,在该章节中我们将利用提供的课程数据来进行一次实战性质的时间序列和聚类分析。 知识点 数据处理 数据可视化 中文分词 文本聚类 数据概览 本次课程的数据来源于运行过程中产生的真实数据,我们对部分数据进行了脱敏处理。 首先,我们需要下载课 ...
分类:编程语言   时间:2020-02-07 15:14:00    阅读次数:128
elasticsearch ik分词插件的扩展字典和扩展停止词字典用法
本文引自 https://blog.csdn.net/caideb/article/details/81632154 cnblog的排版好看很多,所以在这里建一篇分享博客。 扩展字典中的词会被筛选出来,扩展停止词中的词会被过滤掉 1.没有加入扩展字典 停止词字典用法 1) ik分词器 [root@l ...
分类:其他好文   时间:2020-02-05 13:48:40    阅读次数:158
LSTM 句子相似度分析
使用句子中出现单词的Vector加权平均进行文本相似度分析虽然简单,但也有比较明显的缺点:没有考虑词序且词向量区别不明确。如下面两个句子:“北京的首都是中国”与“中国的首都是北京”的相似度为1。“学习容易”和“学习困难”的相似度很容易也非常高。为解决这类问题,需要用其他方法对句子进行表示,LSTM是... ...
分类:其他好文   时间:2020-02-04 14:11:31    阅读次数:99
jieba 分词库(python)
安装jieba:pip install jieba 原理: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 ...
分类:编程语言   时间:2020-02-02 19:34:51    阅读次数:263
NLP之中文分词cppjieba
jieba简介 jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。 jieba支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧 ...
分类:其他好文   时间:2020-02-02 19:31:12    阅读次数:108
NLTK中的Stemmers
Stemmers 在英语中,一个单词常常是另一个单词的“变种”,如:happy= happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。 本文主要介 ...
分类:其他好文   时间:2020-02-02 13:30:24    阅读次数:108
2158条   上一页 1 ... 20 21 22 23 24 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!