时间序列数据挖掘综述http://hi.baidu.com/superkiki1989/item/33d609ec4d936204560f1d14一、引言
时间序列是指按时间顺序排列的一组数据,是一类重要的复杂数据对象。作为数据库中的一种数据形式,它广泛存在于各种大型的商业、医学、工程和社会科学.....
分类:
其他好文 时间:
2014-05-27 00:11:44
阅读次数:
392
大数据_大数据时代_大数据概念_网络大数据随着大数据时代的来临,大数据也吸引了越来越多的关注。网络大数据(http://www.raincent.com)整合了大数据,大数据概念,大数据处理,大数据分析,cdn,cdn加速,idc,网络测量,网络监测,网络安全测量,网站性能监测,行业分析报告,行业研...
分类:
其他好文 时间:
2014-05-26 22:02:55
阅读次数:
338
#includeusing namespace
std;///快排,百度数据挖掘,我面到终面///他们部门经理过来面我///数据挖掘的东西,兵来将挡,水来土掩////讲完项目于对互联网的理解///他说,最后写个快排吧~~~~////FUCK,我没写出来////嚓嚓嚓嚓嚓int
AdjustArray...
分类:
其他好文 时间:
2014-05-26 14:14:50
阅读次数:
174
咳咳~加上补的,今天写多点。嘿嘿~这一章就开始要涉及到产品经理数据收集的数学统计方法咯~正文:前文我们讲到了关键质量特征【链接:产品经理如何量化关键需求指标】我们了解到关键质量特征是驱动客户满意度提升的重要指标,如何提升关键质量特征,那么提升就需要一个指标。找到关键质量特征后,我们运用头脑风暴、细分...
分类:
Web程序 时间:
2014-05-26 12:33:59
阅读次数:
294
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:
Web程序 时间:
2014-05-26 05:54:50
阅读次数:
393
目前为止介绍的都是数据的重排。另一类重要操作则是过滤、清理以及其他的转换工作。...
分类:
编程语言 时间:
2014-05-26 04:02:14
阅读次数:
570
Python能够成为流行的数据处理语言,部分原因是其简单易用的字符串和文本处理功能。大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作,则可能需要用到正则表达式。pandas对此进行了加强,它使你能够对数组数据应用字符串表达式和正则表达式,而且能处理烦人的缺失数据。...
分类:
编程语言 时间:
2014-05-26 03:42:44
阅读次数:
443
(一)搜索引擎的开发一般可分为以下三大部分
1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi
2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene
3、视图层:也用户的交互界面,如一个网站的首页
其基本架构可参考下图:...
分类:
其他好文 时间:
2014-05-24 22:20:16
阅读次数:
349
星形模式是基于关系数据库的数据仓库中的一个著名概念,由于星形连接模式的设计思想能够满足人们从不同观察角度(维)分析数据的需求,所以在基于关系数据库的数据仓库的设计中广泛地使用了星形模式。本文主要介绍《广东省高速公路一张网资金结算情况分析系统》中的数据仓库技术。...
分类:
其他好文 时间:
2014-05-24 18:24:43
阅读次数:
297