一、基于密度的聚类算法的概述 最近在Science上的一篇基于密度的聚类算法《Clustering by fast search and find of density peaks》引起了大家的关注(在我的博文“论文中的机器学习算法——基于密度峰值的聚类算法”中也进行了中文的描述)。于是我就想了解下 ...
分类:
数据库 时间:
2018-05-10 17:28:43
阅读次数:
256
梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函 ...
分类:
其他好文 时间:
2018-05-09 22:43:33
阅读次数:
221
一、逻辑回归简介 logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。 logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。 其公式如下: 其图像如 ...
分类:
编程语言 时间:
2018-05-09 22:39:09
阅读次数:
351
“Dlib 是一个现代化的 C ++ 工具包,包含用于创建复杂软件的机器学习算法和工具 ” 。它使您能够直接在 Python 中运行许多任务,其中一个例子就是人脸检测。 安装 dlib 并不像只做一个 “pip install dlib” 那么简单,因为要正确配置和编译 dlib ,您首先需要安装其 ...
分类:
编程语言 时间:
2018-05-09 16:45:47
阅读次数:
1292
随着数据量以及计算机性能的不断提升,机器学习技术正逐渐渗透于各行各业中。计算机视觉、自然语言处理、机器人等领域基本上已经被机器学习算法垄断,正逐步向教育、银行、医疗等传统行业扩张。关于机器学习如何改变传统教育模式,可以参见博主的这篇文章《使用AR、AI以及大数据改革教育体系——为每位学生打造自己的私 ...
分类:
其他好文 时间:
2018-05-07 16:44:27
阅读次数:
255
损失函数(Loss Function)是一类广义的称呼,指利用数值化的方法表现机器学习算法中产生的模型对于训练集(Training Set)的满意程度。 通常函数值越小,表示该模型预测越精准。 损失函数是一个评判标准,模型的优化训练皆是基于此标准进行,训练模型的目的就是找到一个损失函数最小的模型。 ...
分类:
其他好文 时间:
2018-05-05 14:12:29
阅读次数:
168
我们通常过于专注于机器学习算法的实现,倾向于忽略这种技术本身的一些重要问题:如未来的应用和政治后果。在这篇文章中,我们从非常受欢迎的非营利组织TED上收集了一系列的视频(并非关注于选择什么语言或算法来解决机器学习问题)。 通过这一系列视频,你将从“全景图”的角度了解到关于人工智能和机器学习的有趣讨论 ...
分类:
其他好文 时间:
2018-05-02 20:56:32
阅读次数:
180
概率论是许多机器学习算法的基础,因而本篇将会用到一些概率论知识,我们先统计在数据集中取某个特定值的次数,然后除以数据集的实例总数,就得到了取该值的概率。 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对输入数据的准备方式比较敏感 适用于标称型数据 如果P1(X,Y)>P2(X,Y),那 ...
分类:
其他好文 时间:
2018-05-02 17:30:30
阅读次数:
157
本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库。 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习 应用Spark进行大数据分析 实现机器学习算法 学习使用NumPy库处理数值数据 学习使用Pandas库 ...
分类:
编程语言 时间:
2018-05-02 15:50:11
阅读次数:
236
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征选择是特种工程的重要组成部分,在现实任务中,获得数据之后通常先进性特征选择,用相关特征训练学习器。 特征选择的概念 相关特征:与当前学习任务相关的特征 无关特征:与当前学习任务无关的特征 特征选择:在不丢失重要特征的前提下,从给定... ...
分类:
其他好文 时间:
2018-04-30 15:32:40
阅读次数:
179