ansj_seg,常用的分词工具,基于Java,简单好用 依赖 mvn依赖如下: 代码实例 个人做了简单封装,仅供参考 测试 常用词性 ...
分类:
其他好文 时间:
2019-05-09 15:26:41
阅读次数:
111
一 概述1.1 什么是搜索?1.2 如果用数据库做搜索会怎么样?1.3 什么是全文检索和 Lucene?1.4 什么是 Elasticsearch?1.5 Elasticsearch 的适用场景1.6 Elasticsearch 的特点1.7 Elasticsearch 的核心概念1.7.1 近实时 ...
分类:
编程语言 时间:
2019-05-06 01:26:36
阅读次数:
352
原理:1 、分隔:以空格分隔单词 2、统计 :单词出现的次数并过滤 3、字体:根据统计搭配相应的字号 4 、布局(中文先以空格分词) 方法: 1.建立对象 f=wordcloud.WordCloud() 2.产生词云 f.generate(txt) 3.输出 f.to_file(".jpg") ...
分类:
编程语言 时间:
2019-04-30 23:24:42
阅读次数:
173
我感觉学习python有一个阶段就是熟悉它的各种第三方库的使用,这次我们用jieba分词,用wordcloud生成词云,用pyecharts生成柱状图,来看看吧~ 若您有需要,所有文件已上传到我的github(左上角图标直达)~ 从爬虫开始好了,猫眼电影电脑网页版只能看热门影评。其实为了获取更多影评 ...
分类:
其他好文 时间:
2019-04-30 13:51:15
阅读次数:
143
一、说明: 一、Elasticsearch提供了两个JAVA REST Client版本: 1、java low level rest client: 低级别的rest客户端,通过http与集群交互,用户需自己编组请求JSON串,及解析响应JSON串。兼容所有Elasticsearch版本。 特点: ...
分类:
编程语言 时间:
2019-04-28 17:14:20
阅读次数:
880
一.pypinyin 在处理语音输入指令时, 比如 请给圆圆发消息,那么转化为文字识别时, 无法确定转换的是圆圆还是园园或是源源, 为了解决这个问题, 就把指令转换为拼音来处理,这样就可以处理同音字了.用到的库为pypinyin 简单使用, TONE,TONE2,TONE3为不同转换模式 二 jie ...
分类:
其他好文 时间:
2019-04-28 15:57:24
阅读次数:
458
什么是Restful风格 Restful是一种面向资源的架构风格,可以简单理解为:使用URL定位资源,用HTTP动词(GET,POST,DELETE,PUT)描述操作。 使用Restful的好处: 透明性,暴露资源存在。 充分利用 HTTP 协议本身语义。 无状态,这点非常重要。在调用一个接口(访问 ...
分类:
其他好文 时间:
2019-04-27 15:54:29
阅读次数:
172
1.安装nltk 2.运行如下 >>>import nltk>>> nltk.download('punkt') 3.代码: 4.结果 ...
分类:
其他好文 时间:
2019-04-25 16:16:28
阅读次数:
132
完整代码实现放在我的github上: "click me" 一、任务要求 实现一个基于词典与规则的汉语自动分词系统。 二、技术路线 采用正向最大匹配(FMM)方法对输入的中文语句进行分词,具体的实现可以分为下面几个步骤: 1. 对输入的一个中文语句,首先在程序中判断并确保语句中不包含数字或者字母 2 ...
分类:
其他好文 时间:
2019-04-24 23:39:00
阅读次数:
412
1 import jieba 2 """函数2:分词函数""" 3 def fenci(training_data): 4 """------------------------------------------------------- 5 seg_list = jieba.cut("他来到上海... ...
分类:
编程语言 时间:
2019-04-24 23:32:13
阅读次数:
175