码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
jieba中文处理
一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 ...
分类:其他好文   时间:2019-02-09 00:48:55    阅读次数:141
NLP基础
做一个中文文本分类任务,首先要做的是文本的预处理,对文本进行分词和去停用词操作,来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇(像是:的、地、得等)。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。 一、什么是自然语言处理 一、什么是自然语言处理 一 ...
分类:其他好文   时间:2019-02-04 20:56:40    阅读次数:276
Elasticsearch 数据查询
一、基本查询 语法: 查询类型:match_all,match,term,range,fuzzy,bool 等等 查询条件:查询条件会根据类型的不同,写法也有差异 1.1 查询所有(match_all) 查询指令: 查询结果: 1.2 匹配查询(match) or 关系:会把查询条件进行分词,然后进 ...
分类:其他好文   时间:2019-02-03 23:46:06    阅读次数:403
基于JAVA的IKAnalyzer中文分词运用
一、前提 IKAnalyzer分词器常应用于大数据开发的数据准备阶段,它能对任意长的文字进行关键字提取、文字重组、数据清洗等二次处理,并将处理好的关键数据通过某种分割符重新拼接起来,形成一个可用于进行机器学习的数据集。 二、准备阶段 使用eclipse创建一个Maven工程,通过配置pom.xml文 ...
分类:编程语言   时间:2019-02-03 22:10:17    阅读次数:464
英语词性-句子成分-构词法
词类,句子成分,构词法 "词类" "句子成分" "构词法" "三级作用划分" 词类 10 1.名词 2.代词 3.形容词 4.副词 5.介词 6.连词 7.数词 8.动词 9.感叹词 10.冠词 词性作用 1.名词 表示人,事,物和抽象概念 2.代词 起代替名词的作用 3.形容词 修饰人,事,物的性 ...
分类:其他好文   时间:2019-02-03 17:58:08    阅读次数:187
Centos7 Elasticsearch+IK中文分词+Kibana
一、关于elasticsearch、ik、kibana安装包的下载: 1.ik中文分词的下载地址为:https://github.com/medcl/elasticsearch-analysis-ik/releases 查看和下载对应的ik版本 2.elasticsearch、kibana安装包的而 ...
分类:其他好文   时间:2019-02-02 00:21:40    阅读次数:277
java StringTokenizer
在java引入正则表达式和Scanner类之前分割字符串的唯一方法是使用StringTokenizer来分词,不过现在有了正则表达式和Scanner类我们可以使用更加简单更加简洁的方式来完成同样的工作了. 下面的例子是它们之间的比较,使用正则表达式和Scanner可以很方便的分割字符StringTo ...
分类:编程语言   时间:2019-02-01 22:33:48    阅读次数:227
放开那词云,让我来
一前几天在文章《迟到的2018年度总结(文内有福利)》中,我使用了分词和词云的展示效果,有不少同学都在后台问我是怎么实现的,也希望能用到自己的总结里面去。其实主要思路是参考大佬Python之禅(专业研究Python,有兴趣的同学可以关注)的文章《北大开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了统计》,然后稍微做了下变通。为了让这个工具更易用,我给加了简单的UI界面,这样所
分类:其他好文   时间:2019-02-01 12:22:58    阅读次数:206
NLP入门(六)pyltp的介绍与使用
pyltp的简介   语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台。它提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等。   pyltp 是 LTP 的 ...
分类:其他好文   时间:2019-01-31 19:14:54    阅读次数:1077
自然语言处理之比较两个句子的相似度 余弦相似度
1.句子如下: 2.分词: 2.词频向量化: 4.计算2个向量的相似度: ...
分类:编程语言   时间:2019-01-29 18:08:23    阅读次数:413
2158条   上一页 1 ... 49 50 51 52 53 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!