码迷,mamicode.com
首页 >  
搜索关键字:挖掘    ( 4615个结果
数据挖掘启程经历
2014年初经过深思熟虑,确定方向数据挖掘,作为今后工作生涯的追随领域。 3月份开始看机器学习的课程,到了4月底,参加阿里巴巴的大数据竞赛,便把课程学习给落下了—— 一大遗憾。 比赛的成绩可想而知,由于知识储备不够,况且还是单干,只能说还行,从七千个队伍到前五百名内,再从三百名到一百多名,然后遇到....
分类:其他好文   时间:2014-07-10 00:35:54    阅读次数:183
用 WEKA 进行数据挖掘 ——第一章:简介
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而wek...
分类:其他好文   时间:2014-07-07 23:55:38    阅读次数:417
用 WEKA 进行数据挖掘——第二章: 回归
回归回归是最为简单易用的一种技术,但可能也是最不强大(这二者总是相伴而来,很有趣吧)。此模型可以简单到只有一个输入变量和一个输出变量(在 Excel 中称为 Scatter 图形,或 OpenOffice.org 内的 XYDiagram)。当然,也可以远比此复杂,可以包括很多输入变量。实际上,所有...
分类:其他好文   时间:2014-07-07 23:46:02    阅读次数:241
Python 获取新浪微博的热门话题 (API)
Python 获取新浪微博的热门话题 (API)...
分类:编程语言   时间:2014-06-28 07:51:56    阅读次数:195
算法9-6:最大流的应用
最大流算法在现实生活中有着广泛的应用,从数据挖掘到图像处理,都有应用。现实生活中很多事物看起来是不相干的,而实际上只要通过数学建模,其实很多问题本质上都是一样的。 这里举的一些例子很多都是没办法第一眼就看出来,首先要理解最大流算法的模型,其次就是将现实生活中的问题转换成最大流问题从而进行求解。 二分图匹配问题 大学即将毕业了,很多童鞋要去找...
分类:其他好文   时间:2014-06-28 07:03:25    阅读次数:321
几款开源的中文分词系统
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理...
分类:其他好文   时间:2014-06-26 22:35:29    阅读次数:298
【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 决策书算法是一种逼近离散数值的分类算法,思路比較简单,并且准确率较高。国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Da...
分类:编程语言   时间:2014-06-26 22:33:33    阅读次数:410
输入法之模型剪枝一(基于熵的剪枝)
prunning,剪枝,顾名思义就是减掉那些不重要的。 从理论上来讲,剪枝达到的效果就是剪枝后的q和剪枝前的 p 最大化相似,有两种算法 entroy-based以及rank-based。 针对model,使用相对熵来刻画D(q||p) 来刻画,保证两个model的熵差别最小,就是entropy-based。如果使用rank(p|q)来描述,保证整个model的rank差别最小...
分类:其他好文   时间:2014-06-26 07:24:00    阅读次数:208
hadoop1-构建电影推荐系统
问题导读:1. 推荐系统概述;2. 推荐系统指标设计;3. Hadoop并行算法;4. 推荐系统架构;5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发...
分类:其他好文   时间:2014-06-25 09:46:57    阅读次数:329
用分区表分区交换做历史数据迁移
一。说明: OLTP中有些表数据量大,而且会对历史数据进行迁移至OLAP中做数据挖掘。对这种历史数据迁移的操作,较好的办法是该表采用分区表。比如按时间分区后,可以对分区进行迁移。 通过分区交换和表空间传输会很容易完成,而且性能上影响很小。 关于分区表更多内容:http://blog.csdn.net/tanqingru/article/category/1397435 关于表空间传...
分类:其他好文   时间:2014-06-24 17:21:12    阅读次数:260
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!