码迷,mamicode.com
首页 >  
搜索关键字:挖掘    ( 4615个结果
网络挖掘技术——text mining
一、中文分词:分词就是利用计算机识别出文本中词汇的过程。 1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控 ;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:其他好文   时间:2014-06-07 06:04:35    阅读次数:511
时间序列数据挖掘综述
时间序列数据挖掘综述http://hi.baidu.com/superkiki1989/item/33d609ec4d936204560f1d14一、引言 时间序列是指按时间顺序排列的一组数据,是一类重要的复杂数据对象。作为数据库中的一种数据形式,它广泛存在于各种大型的商业、医学、工程和社会科学.....
分类:其他好文   时间:2014-05-27 00:11:44    阅读次数:392
伤心的快排
#includeusing namespace std;///快排,百度数据挖掘,我面到终面///他们部门经理过来面我///数据挖掘的东西,兵来将挡,水来土掩////讲完项目于对互联网的理解///他说,最后写个快排吧~~~~////FUCK,我没写出来////嚓嚓嚓嚓嚓int AdjustArray...
分类:其他好文   时间:2014-05-26 14:14:50    阅读次数:174
BI与大数据
微博的诞生、云计算、物联网、移动互联网等各种爆炸式数据,给商业智能的蓬勃发展提供了良好的“大数据”环境。大数据为BI带来了海量数据。对挖掘来说,大数据量要更容易对比.抢夺大数据市场,需要具备一定的实力,报表的呈现和简易分析只是停留在“B”的阶段,要想达到“I”的阶段,必须要结合整个大环境、大行业的数...
分类:其他好文   时间:2014-05-26 07:08:41    阅读次数:221
Mahout kmeans聚类
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:其他好文   时间:2014-05-26 06:00:31    阅读次数:239
网络爬虫(网络蜘蛛)之网页抓取
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:Web程序   时间:2014-05-26 05:54:50    阅读次数:393
大数据处理——Hadoop解析(一)
概述这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘、分析。因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正在发生了改变。例如,基于大数据分析可以做疾病预测控制;基于..
分类:其他好文   时间:2014-05-25 08:25:49    阅读次数:620
相似度度量 距离
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, ...
分类:其他好文   时间:2014-05-25 07:01:04    阅读次数:317
基于数据仓库星形模式的广东省高速公路一张网资金结算情况分析系统
星形模式是基于关系数据库的数据仓库中的一个著名概念,由于星形连接模式的设计思想能够满足人们从不同观察角度(维)分析数据的需求,所以在基于关系数据库的数据仓库的设计中广泛地使用了星形模式。本文主要介绍《广东省高速公路一张网资金结算情况分析系统》中的数据仓库技术。...
分类:其他好文   时间:2014-05-24 18:24:43    阅读次数:297
新辰:SEOer如何降低非原创文章带来的影响?
有朋友向新辰抱怨:老板给的任务太多,每天都要写几篇原创,半个月还好说,可一个月下来都不知道写什么了。新辰说过,可以挖掘出很多长尾词,组建一个词库,然后就围绕这个词库写就行;但难倒了一波人,于是乎,便出现了大量的复制粘贴或伪原创相似的页面,当然,这是不友好的SEO行为,那SEOer应该如何降低影响呢? 虽然,百度已经说明了即使文章不是原创,只要具有可读性和符合用户体验就可收录,但是很多朋友应该...
分类:其他好文   时间:2014-05-22 16:59:05    阅读次数:376
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!