前言 机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境 得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次。 我的文章有幸被你看到的话,如果你也是个初学者,希望能让你也学习到一些东西,下面是干货。 需求: 环境: 1 ...
分类:
编程语言 时间:
2016-09-04 17:22:03
阅读次数:
204
KNN的算法工作原理: 存在一个训练样本集合,样本集中每个数据都有确定的标签(分类),即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前 ...
分类:
其他好文 时间:
2016-09-03 16:26:32
阅读次数:
106
环境:win7 64位系统 第一步:安装python 1、下载python2.7.3 64位 msi 版本(这里选择了很多2.7的其他更高版本导致安装setuptools失败,也不知道是什么原因,暂时不管,总之选择这个版本就可以了) 2、安装python,全部next点下去。 3、配置一下环境变量, ...
分类:
编程语言 时间:
2016-09-03 09:48:13
阅读次数:
243
研一上了一门机器学习课,可惜听了一学期天书。考试为什么会考过,我自己都不知道。这门课大概是这辈子听得最扯淡的一门课了,真真正正是没听懂过。 后来做的大多数都是底层开发的活,也没再去学习。最近因为机器人项目的启发,深知机器学习的重要性和未来的发展潜力。遂决定还是重新来看一下机器学习到底是个什么鬼。 这 ...
分类:
其他好文 时间:
2016-08-19 19:11:15
阅读次数:
125
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 这节学习的是逻辑回归(Logistic R ...
分类:
编程语言 时间:
2016-08-14 15:58:21
阅读次数:
237
引自(机器学习实战) 简单概念 Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念。 1:弱学习器:在二分情况下弱分类器的错误率会低于50%。其实任意的分类器都可以做为弱分类器,比如之前介绍的KNN、决策树、Naïve Bayes、l ...
分类:
其他好文 时间:
2016-08-03 21:55:09
阅读次数:
244
cousera-Andrew NG的机器学习足够入门cs229台湾大学林轩田老师的机器学习基石和机器学习技法结合李航的<<统计学习方法>>和周志航的<<机器学习>> 看完之后看<<机器学习实战>>之后去kaggle打比赛, 再想深了看看pr ...
分类:
系统相关 时间:
2016-07-08 13:51:24
阅读次数:
176
一 引言 本程序是一个完整的机器学习过程,先编写基于python的爬虫脚本,爬取目标论坛网站的评论到本地存储,然后使用贝叶斯分类模型对评论进行分类,预测新 的评论是否为垃圾评论。如果遇到大数据量的问题,可以把贝叶斯算法写成mapreduce模式,map负责把数据集划分成键值对格式,类序号为key,属 ...
分类:
其他好文 时间:
2016-07-05 22:32:05
阅读次数:
450
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k。k均值是基于相似度的聚类,为没有标签的一簇实例分为一类。 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可); 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧 ...
分类:
其他好文 时间:
2016-07-04 23:26:24
阅读次数:
214
本文介绍logistic回归,和改进算法随机logistic回归,及一个病马是否可以治愈的案例。例子中涉及了数据清洗工作,缺失值的处理。 一 引言 1 sigmoid函数,这个非线性函数十分重要,f(z) = 1 / (1 + e^(-z) ), 画图如下: 这个函数可以很好的把数轴上的值映射到0, ...
分类:
其他好文 时间:
2016-06-25 23:00:12
阅读次数:
511