搜索关键字：anaconda 数据挖掘机器学习，搜索到12837个结果！码迷,mamicode.com！

网络爬虫(网络蜘蛛)之网页抓取

现在有越来越多的人热衷于做网络爬虫（网络蜘蛛），也有越来越多的地方需要网络爬虫，比如搜索引擎、资讯采集、舆情监测等等，诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂，如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面，对于新手来说，不...

分类：Web程序时间：2014-05-26 05:54:50 阅读次数：393

Mahout canopy聚类

Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后，可以删除那些包含数据点数目较少的canopy，往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。...

分类：其他好文时间：2014-05-26 03:21:30 阅读次数：321

Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）

所谓学习问题，是指观察由n个样本组成的集合，并根据这些数据来预测未知数据的性质。学习任务（一个二分类问题）：区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎，专门为用户提供团购、优惠券的检索；同时存在一个通用的搜索引擎，比如百度，通用搜索引擎希望能...

分类：其他好文时间：2014-05-25 23:18:41 阅读次数：468

机器学习笔记——K-means

K-means是一种聚类算法，其要求用户设定聚类个数k作为输入参数，因此，在运行此算法前，需要估计需要的簇的个数。假设有n个点，需要聚到k个簇中。K-means算法首先从包含k个中心点的初始集合开始，即随机初始化簇的中心。随后，算法进行多次迭代处理并调整中心位置，知道达到最大迭代次数或中性收敛于固定点。 k-means聚类实例。选择三个随机点用作聚类中心(左上)，map阶段(右上)将...

分类：其他好文时间：2014-05-25 21:11:25 阅读次数：275

径向基网络（RBF network）之BP监督训练

径向基网络（RBF network）之BP监督训练转载：http://blog.csdn.net/zouxy09/article/details/13297881分类：机器学习神经网络C/C++编程2013-10-28 18:173083人阅读评论(1)收藏举报神经网络机器学习RBF径向基网络（RB...

分类：Web程序时间：2014-05-25 19:34:35 阅读次数：586

机器学习完整过程案例分布解析，python代码解析

所谓学习问题，是指观察由n个样本组成的集合，并根据这些数据来预测未知数据的性质。学习任务（一个二分类问题）：区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎，专门为用户提供团购、优惠券的检索；同时存在一个通用的搜索引擎，比如百度，通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图，如果有则调用O2O垂直搜索引擎，获取结...

分类：编程语言时间：2014-05-25 13:34:47 阅读次数：495

AutoEncoder的一些实验结果和思考

之前看Autoencoder的时候，做了一下这里的练习：http://ufldl.stanford.edu/wiki/index.php/Exercise:Sparse_Autoencoder 。其实从1月份就开始做了，当时没有调试通过，后来又加班太多，一直没有接着做。直到上上周末抽空调了一天，终于顺利完成了，又拖到这周末才开始把实验结果整理成文。看来，做事还得趁热打铁，一气呵成。时间一久，积极...

分类：其他好文时间：2014-05-25 08:53:28 阅读次数：907

大数据处理——Hadoop解析（一）

概述这个时代被称之为大数据时代，各行各业生产的数据量呈现爆发性增长，并且基于这些爆发性增长的数据做深层次的数据挖掘、分析。因此，我们可以很容易的感觉到，在这样一个大数据的时代，我们很多做事情的方法正在发生了改变。例如，基于大数据分析可以做疾病预测控制；基于..

分类：其他好文时间：2014-05-25 08:25:49 阅读次数：620

相似度度量距离

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1， x2， x3， ...

分类：其他好文时间：2014-05-25 07:01:04 阅读次数：317

基于数据仓库星形模式的广东省高速公路一张网资金结算情况分析系统

星形模式是基于关系数据库的数据仓库中的一个著名概念，由于星形连接模式的设计思想能够满足人们从不同观察角度（维）分析数据的需求，所以在基于关系数据库的数据仓库的设计中广泛地使用了星形模式。本文主要介绍《广东省高速公路一张网资金结算情况分析系统》中的数据仓库技术。...

分类：其他好文时间：2014-05-24 18:24:43 阅读次数：297