码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
#19 re&jieba模块
本片博文主要记录Python中正则表达式re模块和中文分词模块jieba ...
分类:其他好文   时间:2019-02-09 17:58:35    阅读次数:161
基于JAVA的IKAnalyzer中文分词运用
一、前提 IKAnalyzer分词器常应用于大数据开发的数据准备阶段,它能对任意长的文字进行关键字提取、文字重组、数据清洗等二次处理,并将处理好的关键数据通过某种分割符重新拼接起来,形成一个可用于进行机器学习的数据集。 二、准备阶段 使用eclipse创建一个Maven工程,通过配置pom.xml文 ...
分类:编程语言   时间:2019-02-03 22:10:17    阅读次数:464
Centos7 Elasticsearch+IK中文分词+Kibana
一、关于elasticsearch、ik、kibana安装包的下载: 1.ik中文分词的下载地址为:https://github.com/medcl/elasticsearch-analysis-ik/releases 查看和下载对应的ik版本 2.elasticsearch、kibana安装包的而 ...
分类:其他好文   时间:2019-02-02 00:21:40    阅读次数:277
放开那词云,让我来
一前几天在文章《迟到的2018年度总结(文内有福利)》中,我使用了分词和词云的展示效果,有不少同学都在后台问我是怎么实现的,也希望能用到自己的总结里面去。其实主要思路是参考大佬Python之禅(专业研究Python,有兴趣的同学可以关注)的文章《北大开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了统计》,然后稍微做了下变通。为了让这个工具更易用,我给加了简单的UI界面,这样所
分类:其他好文   时间:2019-02-01 12:22:58    阅读次数:206
NLP入门(六)pyltp的介绍与使用
pyltp的简介   语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台。它提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等。   pyltp 是 LTP 的 ...
分类:其他好文   时间:2019-01-31 19:14:54    阅读次数:1077
使用TensorFlow进行中文自然语言处理的情感分析
1 TensorFlow使用 分析流程: 1.1 使用gensim加载预训练中文分词embedding 加载预训练词向量模型:https://github.com/Embedding/Chinese-Word-Vectors/ 查看词语的向量模型表示: 维度为300 词语相似度:向量余弦值 最相似的 ...
分类:编程语言   时间:2019-01-28 21:08:12    阅读次数:308
python学习 第十一个程序 汉语文本词频统计
# CalThreeKingdoms.pyimport jieba'''安装第三方库 中文分词jieba pip install jieba统计三国演义中出现次数最多的人'''txt = open("threekingdoms.txt", "rt", encoding="utf-8").read() ...
分类:编程语言   时间:2019-01-26 17:57:30    阅读次数:166
Elasticsearch入门
1、ES9300端口号与9200区别2、Elasticsearch倒排索引原理3、Elasticsearch高级查询4、ElasticsearchIK分词器原理5、ElasticsearchIK中文分词器6、IK自定义中文词典热词7、Elasticsearch Mapping映射 1.区别: 930 ...
分类:其他好文   时间:2019-01-21 01:10:28    阅读次数:161
快速掌握分布式搜索引擎ElasticSearch(一)
前言 由于最近在项目中接触使用到了ElasticSearch,从本篇博客开始将给大家分享这款风靡全球的产品。将涉及到ElasticSearch的安装、基础概念、基本用法、高级查询、中文分词器、与SpringBoot集成进行接口开发等相关知识。 ElasticSearch简述 如果大家接触过大数据的话 ...
分类:其他好文   时间:2019-01-17 20:02:44    阅读次数:216
基于开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了测试
做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它的意思。 因此,中文分词技术一直是nlp领域中的一大挑战。Python 中有个比较著名的分词库是结... ...
分类:编程语言   时间:2019-01-15 12:09:22    阅读次数:210
704条   上一页 1 ... 11 12 13 14 15 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!