一、倒排索引 A、建立前会进行normalization,也就是说对各个单词进行相应的处理(时态、大小写、同义词等),以提升后面搜索时候搜到相关文档的概率 二、分词器 A、character filter:分词之前进行预处理,过滤html标签,&转换成and等等 B、tokenizer:分词 C、t ...
分类:
其他好文 时间:
2019-12-30 19:45:10
阅读次数:
94
一个好的可视化,能够带给人们不仅仅是视觉上的冲击,还能够揭示蕴含在数据中的规律和道理。下面就总结一下可视化的基础概念。 【可视化的意义】 可视化的终极目标是洞悉蕴含在数据中的现象和规律,这里面有多重含义:发现、决策、解释、分析、探索和学习。 简明定义是:通过可视表达增强人们完成某些任务的效率 可以化 ...
分类:
其他好文 时间:
2019-12-29 12:54:46
阅读次数:
157
中文分析器IK Analyzer IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。 IK Analyzer配置在linux中 1、把IKAnalyzer2012FF_u1.jar 添加到 solr 工程(/usr/local/tomcat/webapps/so ...
分类:
其他好文 时间:
2019-12-26 21:14:31
阅读次数:
89
英语单词manipulate 来源 翻译 vt. 操纵;操作;巧妙地处理;篡改 过去式 manipulated 过去分词 manipulated 现在分词 manipulating 第三人称单数 manipulates TOEFL | GMAT | IELTS | CET6 | GRE | 商务英语 ...
分类:
其他好文 时间:
2019-12-26 19:06:50
阅读次数:
118
进入到我们ik分词器安装目录下的config目录 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"><properties> <comm ...
分类:
其他好文 时间:
2019-12-25 23:37:10
阅读次数:
120
0、默认分词器。 默认分词器,查询的时候会把中文一个汉字当作一个关键字拆分,这样是不符合我们的需求的,所以需要安装分词器。 1、下载分词器。 当前有多种分词器可下载,据说比较好用的是IK分词器。 注意,下载分词器的时候,版本必须要与Elasticsearch安装的版本一致,否则会出现不可描述的错误。 ...
分类:
其他好文 时间:
2019-12-25 23:36:15
阅读次数:
192
在Elasticsearch中,我们可以使用_search终端进行搜索。这个在我之前的文章 “开始使用Elasticsearch (2)” 中有很多的描述。针对这种搜索,我们可以使用强大的DSL进行搜索。在Elasticsearch中,还有一类是基于URI的搜索。对于这种它可以很方便地直接在浏览器中 ...
分类:
其他好文 时间:
2019-12-24 15:43:33
阅读次数:
138
Elastic的Medcl提供了一种搜索Pinyin搜索的方法。拼音搜索在很多的应用场景中都有被用到。比如在百度搜索中,我们使用拼音就可以出现汉字: 对于我们中国人来说,拼音搜索也是非常直接的。那么在Elasticsearch中我们该如何使用pinyin来进行搜索呢?答案是我们采用Medcl所创建的 ...
分类:
其他好文 时间:
2019-12-23 14:53:29
阅读次数:
129
一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 主题名称:豆瓣音乐专区的摇滚音乐 2.主题式网络爬虫爬取的内容与数据特征分析 爬取豆瓣音乐专区的摇滚音乐歌手、链接及受喜爱的人数 3.主题式网络爬虫设计方案概述(包括实现思路与技术难点) 实现思路:爬取获得的豆瓣音乐的HTML页面,使用B ...
分类:
编程语言 时间:
2019-12-21 20:48:23
阅读次数:
107
用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 爬取虎牙直播英雄联盟播放信息 2.主题式网络爬虫爬取的内容与数据特征分析 此次爬虫主要尝试爬取虎牙直播英 ...
分类:
编程语言 时间:
2019-12-21 19:03:22
阅读次数:
102