An exception occured while performing the indexing job : java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce ...
分类:
其他好文 时间:
2017-04-18 12:45:10
阅读次数:
165
层次化索引 层次化索引(hierarchical indexing)是pandas的一项重要功能, 它使你能在一个轴上拥有多个(两个以上)索引级别。 抽象点说,它使你能以低维度形式处理高维度数据。 先看个Series例子: 对于一个层次化索引的对象, 选取数据子集的操作很简单: 有时甚至还可以在“内 ...
分类:
其他好文 时间:
2017-02-24 18:11:24
阅读次数:
319
一维数组 二维数组 布尔型索引 看例子: 注意: 将data中所有的负值都设置为0 花式索引 花式索引(Fancy indexing) 是一个Numpy术语, 它指的是利用整数数组进行索引。 例子: 花式索引取特定子集 花式索引使用负数索引 花式索引--使用二维取单个值 花式索引--索引取二维数组 ...
分类:
其他好文 时间:
2017-02-14 19:31:28
阅读次数:
333
Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,无须配置。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。 在Lucene in action中,Lucene 的构架和过程如下图, ...
分类:
Web程序 时间:
2017-02-06 23:18:27
阅读次数:
305
SVD简介 SVD不仅是一个数学问题,在机器学习领域,有相当多的应用与奇异值都可以扯上关系,比如做feature reduction的PCA,做数据压缩(以图像压缩为代表)的算法,还有做搜索引擎语义层次检索的LSI(Latent Semantic Indexing)或隐性语义分析(Latent Se ...
分类:
其他好文 时间:
2017-01-10 16:06:21
阅读次数:
437
在介绍全文检索前,先简单说下全文数据搜索的两种方式: 顺序扫描法(Serial Scanning):所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。如利用 ...
分类:
其他好文 时间:
2017-01-03 19:09:48
阅读次数:
328
python的set是一个无序不重复元素集,基本功能包括关系测试和消除重复元素.集合对象还支持并、交、差、对称差等。sets支持xinset、len(set)、和forxinset。作为一个无序的集合,sets不记录元素位置或者插入点。因此,sets不支持indexing,slicing,或其它类序列(sequence-like)..
分类:
编程语言 时间:
2016-12-14 02:36:37
阅读次数:
261
最近在写个性化推荐的论文,经常用到Python来处理数据,被pandas和numpy中的数据选取和索引问题绕的比较迷糊,索性把这篇官方文档翻译出来,方便自查和学习,翻译过程中难免很多不到位的地方,但大致能看懂,错误之处欢迎指正~ Python pandas 0.19.1 Indexing and S ...
分类:
编程语言 时间:
2016-11-29 22:16:12
阅读次数:
372
ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事) 摘要 先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我的搜索 *foo-bar* 无法匹配 foo-bar ? 为什么增加更多的文件会压缩索引(Index ...
分类:
其他好文 时间:
2016-11-29 17:00:38
阅读次数:
249
PlainElastic.Net PlainElastic.Net The really plain Elastic Search .Net client. Idea Installation How its works Concepts Command building Indexing Bulk ...
分类:
Web程序 时间:
2016-11-18 22:01:03
阅读次数:
648