码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
elasticsearch6.1.3 集成分词器
# 安装分词器,分词器版本需要和es版本完全匹配,重启es ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.1.3/elasticse ...
分类:其他好文   时间:2019-01-15 17:48:04    阅读次数:201
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照 来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了。 使用python 爬取博客园首页文章链接和标题。 首先当然是环境了,爬虫在window10系统下,python3.6.5环境中运行。使用python中的requests模块和BeautifulSoup模块。 通 ...
分类:编程语言   时间:2019-01-15 14:10:56    阅读次数:219
基于开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了测试
做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它的意思。 因此,中文分词技术一直是nlp领域中的一大挑战。Python 中有个比较著名的分词库是结... ...
分类:编程语言   时间:2019-01-15 12:09:22    阅读次数:210
Pullword 分词工具
def get_response(self, txt): """ 热词工具 """ datas = [] request_lists = [] # 筛选文本 with open(txt,'r', encoding='utf8') as f: for line in f: ... ...
分类:其他好文   时间:2019-01-13 10:23:08    阅读次数:197
【NLP】分词 新词
基于大规模语料的新词发现算法 https://blog.csdn.net/xgjianstart/article/details/52193258 互联网时代的社会语言学:基于SNS的文本数据挖掘 http://www.matrix67.com/blog/archives/5044 ...
分类:其他好文   时间:2019-01-11 21:16:33    阅读次数:213
安装ik分词器以及版本和ES版本的兼容性
一.查看自己ES的版本号与之对应的IK分词器版本 https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md 二.下载与之对应的版本 https://github.com/medcl/elasticsearch-a ...
分类:其他好文   时间:2019-01-09 15:41:44    阅读次数:239
用Python和WordCloud绘制词云(内附让字体清晰的秘笈)
环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点。 思路: 先提取项目的名称,再用Jieba分词后提取词汇;过滤掉“研发”、“系列”等无意义的词;最后 ...
分类:编程语言   时间:2019-01-08 15:32:26    阅读次数:254
什么是Solr
什么是Solr Lucene复习: 1、什么是lucene:全文检索工具包 2、Lucene的工作原理: 索引数据的创建 从原始文件中提取一些可以用来搜索的数据(封装成各种Field),把各field再封装成document,然后对document进行分析(对各字段分词),得到一些索引目录写入索引库 ...
分类:其他好文   时间:2019-01-08 12:29:54    阅读次数:131
javasrcipt的作用域和闭包(三)闭包与模块
一些很重要的说明:前面三篇博客详细的介绍了,引擎与编译器和作用域的关系,重点需要理解的是编译器中的分词与词法分析,JavaScript的特有的“赋值操作的左右侧”引用操作;编译阶段的词法作用域的工作原理和eval、with的欺骗词法作用域;然后还有介绍了函数作用域与块级作用及相关的ES6新特性,接着 ...
分类:编程语言   时间:2019-01-05 12:10:28    阅读次数:173
课堂练习word count
团队成员:原田宁 汪云云 项目计划: 环境配置:编程语言 python 代码规范 仓库连接 https://gitee.com/sun_shine_yun 功能点:一、对中文进行分词,并对词语进行统计 1.统计不同个数词语的个数 2.统计特殊词的出现次数 二、 ...
分类:其他好文   时间:2019-01-03 10:50:02    阅读次数:153
2158条   上一页 1 ... 51 52 53 54 55 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!