1 首先需要安装Cython,网上下载后进行本地安装 python setup.py install
2 下载Sklearn包,https://pypi.python.org/pypi/scikit-learn/0.14.1 ,进行本地安装(使用pip或easy_install总是出错,如can not import murmurhash3_32,最终本地安装成功)
3 安装后...
分类:
编程语言 时间:
2014-11-14 22:49:04
阅读次数:
294
热热闹闹的双十一结束了,除了阿里再次刷新记录外,电商行业已经没有了往昔的神秘与激情,尤其PC电商已经再无创新空间,从阿里的交易数据中可以发现,移动电商正快速崛起,占到总交易额的42.6%,未来电商技术革新更有可能发生在移动端。腾讯非常想在移动电商市场挑战阿里,先后..
分类:
其他好文 时间:
2014-11-14 18:08:27
阅读次数:
181
EM算法,这是cv界比较有名的一种算法了,虽然很早就听说过,但真正深究还是最近几天看斯坦福公开课笔记的时候。之所以EM和MoG放在一起,是因为我们在求解MoG模型的时候需要用到EM算法,所以这里我们先来介绍下EM算法。 在介绍EM算法的之前,我们先来普及下Jensen不等式的知识。首先我们来给出.....
分类:
编程语言 时间:
2014-11-14 17:36:59
阅读次数:
532
从业务发展需求,大数据平台需要使用spark作为机器学习、数据挖掘、实时计算等工作,所以决定使用Cloudera Manager5.2.0版本和CDH5。
以前搭建过Cloudera Manager4.8.2和CDH4,在搭建Cloudera Manager5.2.0版本的时候,发现相应的Service Host Monitor 和 Service Monitor不能配置外部表,刚开是还以为是配置出错,后来才发现应该是新版本的Cloudera的存储改变方式了。查了很多文档,果然发现,新版本中Service ...
分类:
数据库 时间:
2014-11-14 12:39:43
阅读次数:
316
来源:36大数据 作者:LinkinPark现一个key-value的数据库,那么有很多种模式都可以实现,但是他们最终所达到的效果却是千差万别的。同样,在机器学习领域,如果我想实现一个分类器,也有很多种算法,但是每种算法都对数据做了不同的前提假设。曾经当我们处理少量数据的时候,我们往往可以先设计若干...
分类:
其他好文 时间:
2014-11-14 12:04:29
阅读次数:
128
Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 229 的学习笔记。Machine Learning Algorithms Study Notes系列文...
分类:
系统相关 时间:
2014-11-14 10:30:14
阅读次数:
279
本人还没有做过自然语言处理,但是基于Deep Learning 的关注,自然也了解了一些Word2vec的强大。
Word2vec 是google 在2013年提供的一款将词表征为实数值向量的高效工具。而Word2vec
输出的词向量可用于做NLP 相关的工作,比如聚类、找同义词、词性分析等。Word2vec 大受欢迎的一个原因是其高效性, Tomas Mikolov 在[1]...
分类:
其他好文 时间:
2014-11-13 16:47:26
阅读次数:
192
基于 Apache Mahout 实现高效的协同过滤推荐 Apache Mahout 是 Apache Software Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用...
分类:
编程语言 时间:
2014-11-13 13:07:07
阅读次数:
270
目前,SPARK在大数据处理领域十分流行。尤其是对于大规模数据集上的机器学习算法,SPARK更具有优势。一下初步介绍SPARK在linux中的部署与使用,以及其中聚类算法的实现。...
分类:
编程语言 时间:
2014-11-12 21:21:04
阅读次数:
264
《PRML》中Logistic回归(逻辑回归,LR)的推导...
分类:
其他好文 时间:
2014-11-12 21:16:56
阅读次数:
280