全文检索 全文检索不同于特定字段的模糊查询,使用全文检索的效率更高,并且能够对于中文进行分词处理 haystack:django的一个包,可以方便地对model里面的内容进行索引、搜索,设计为支持whoosh,solr,Xapian,Elasticsearc四种全文检索引擎后端,属于一种全文检索的框 ...
分类:
其他好文 时间:
2019-06-20 09:14:32
阅读次数:
114
中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...
分类:
其他好文 时间:
2019-06-19 19:58:28
阅读次数:
129
获取到数据之后,首先对用户location做可视化 第一步 做数据清洗,把里面的数据中文符号全部转为为空格 第二步 数据做词云,需要过滤停用词,然后分词 输入结果 这样输出的原因是后面需要用pyechart做数据的词云 第三步 词云可视化 二 用户地址可视化 用户所在地成都热点图 程序脚本:这里需要 ...
分类:
其他好文 时间:
2019-06-19 15:12:29
阅读次数:
122
传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 ...
分类:
编程语言 时间:
2019-06-18 12:02:55
阅读次数:
179
1.创建索引 举例子: 文档一:solr是基于Lucene开发的企业级搜索引擎技术 文档二:Solr是一个独立的企业级搜索应用服务器,Solr是一个高性能,基于Lucene的全文搜索服务器 首先经过分词器分词,solr会为分词后的结果(词典)创建索引,然后将索引和文档id列表对应起来,如下图所示: ...
分类:
其他好文 时间:
2019-06-17 11:00:43
阅读次数:
99
创建自定义分词器 测试分词器 DELETE /test_analyzer PUT /test_analyzer { "settings": { "analysis": { "char_filter": { "sign_to_word": { "type": "mapping", "mappings" ...
分类:
其他好文 时间:
2019-06-16 21:36:31
阅读次数:
161
1.对词用独热编码进行表示的缺点 向量的维度会随着句子中词的类型的增大而增大,最后可能会造成维度灾难2、任意两个词之间都是孤立的,仅仅将词符号化,不包含任何语义信息,根本无法表示出在语义层面上词与词之间的相关信息,而这一点是致命的。 2.用向量代表词的好处 3.词嵌入的由来 在NLP之分词中提过,o ...
分类:
其他好文 时间:
2019-06-16 20:05:09
阅读次数:
206
对于类似于这篇文章中的需求,Elasticsearch实现英文区分大小写搜索,创建了两个采用不同分词器内容相同的字段,实施搜索时,正常如果只有一个搜索条件,直接搜索某一个字段即可,但是如果有多两个搜索条件,比如:有两个搜索框,一个是区分大小写搜索,另外一个时正常的模糊搜索,这时在显示高亮的时候就会有 ...
分类:
其他好文 时间:
2019-06-15 15:52:42
阅读次数:
124
在使用ElasticSearch过程中,一般中文使用IK分词器,英文使用默认的分词器即可,但是对于上述分词器满足不了需求的情况下,需要自定义分析器。 以下思维导图包含ES分析器的结构和内置的一些组件: ...
分类:
其他好文 时间:
2019-06-15 15:24:28
阅读次数:
79
不同分词工具原理解析 对各种分词工具的介绍,具体参考: http://www.cnblogs.com/en-heng/p/6234006.html 具体参考: https://blog.csdn.net/rav009/article/details/12196623 jieba分词原理解析 采用的是 ...
分类:
其他好文 时间:
2019-06-14 22:08:31
阅读次数:
1527