摘要:近日,Robert
Seaton整理了100多个最有趣的数据集,其中包括Jeopardy真题,死囚的最后一句话,20万个Eclipse
Bug,足球比赛相关,柏拉图式的爱情,太阳系以外的行星,11.3万个恐怖事件等。【编者按】在数据爆发式增长的逼迫下,当下数据分析能力已得到长足的发展,机器学习...
分类:
系统相关 时间:
2014-06-11 09:25:52
阅读次数:
717
商宝商宝是基于微博移动的社交购物平台,通过商宝打通微博等社交平台商品展示、粉丝营销、订单支付、数据分析等环节,商宝可提供丰富的营销工具和活动插件。商宝展示的商品信息可以分享到各个社交网络的信息流中,实现商品的快速传播和售卖,使用商宝的商家仅需在商宝管理后台统一管理商品营销和订单即可。产品简介商宝,由...
分类:
移动开发 时间:
2014-06-08 00:38:15
阅读次数:
228
博主是自然语言处理方向的,不是推荐系统领域的,这个程序完全是为了应付大数据分析与计算的课程作业所写的一个小程序,先上程序,一共55行。不在意细节的话,55行的程序已经表现出了协同过滤的特性了。就是对每一个用户找4个最接近的用户,然后进行推荐,在选择推荐的时候是直接做的在4个用户中选择该用户item没...
分类:
编程语言 时间:
2014-06-07 07:19:12
阅读次数:
473
今天主要认识了小柒、七念、圆影......体会了阿里人自己设计的chrome插件之UData。这是个很牛的插件,用于天猫和淘宝的数据分析,比如用户页面每个部位的点击量,同一IP的点击量,热度的显示,加入收藏夹、支付等数据,通过分析PV,UV,IPV便于他们后期页面的布局设计等。在学习体会的过程中,发...
分类:
其他好文 时间:
2014-06-05 16:32:24
阅读次数:
180
准备开题报告了,先要熟悉一下领域范围,《集体智慧编程》参考一下论点。简单的思路是看一下哪个话题最热门,用google学术来衡量一下论文数,虽然不够精确但是足以反应一点什么。
当然是选择最近比较热门的,同时参考一下国内的论文数目情况。
关键字
总的
2014
国内总数
2014
推荐
2,480,000
...
分类:
其他好文 时间:
2014-06-05 01:59:36
阅读次数:
241
1.vertica概念
面向数据分析的数据仓库系统解决方案
2.vertica关键特性
Ø 标准的SQL接口:可以利用已有的BI、ETL、Hadoop/MapReduce和OLTP环境
Ø 高可用:内置的冗余也提升了查询速度
Ø 自动化数据库设计:数据库自动安装、优化、管理
Ø 高级压缩:十多种压缩算法最多可节省90%的空间
Ø 大规模并行处理:运行于低成本的x86型Lin...
分类:
其他好文 时间:
2014-06-02 23:09:24
阅读次数:
483
前言:例行公事,有些人可能不太了解elasticsearch,下面搜了一段,大家瞅一眼。Elasticsearch是一款分布式搜索引擎,支持在大数据环境中进行实时数据分析。它基于ApacheLucene文本搜索引擎,内部功能通过ReSTAPI暴露给外部。除了通过HTTP直接访问Elasticsearch,还可以通过支..
分类:
编程语言 时间:
2014-06-01 13:47:42
阅读次数:
328
(一)搜索引擎的开发一般可分为下面三大部分1、数据採集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个站点的首页...
分类:
其他好文 时间:
2014-05-31 20:04:37
阅读次数:
263
本文转载自:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空...
分类:
系统相关 时间:
2014-05-31 11:39:49
阅读次数:
543