机器学习:数据预处理之独热编码(One-Hot) 前言 ———————————————————————————————————————— 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等。这些特征值并不是连续的,而是离散的,无序的。通常我们需要对其进行特征数字 ...
分类:
其他好文 时间:
2019-03-29 21:04:03
阅读次数:
267
这个小段的内容主要是朴素贝叶斯、支持向量机、决策树和集成学习的代码,看不懂..........后面的更是看不懂.................. 朴素贝叶斯: scikit-learn提供了伯努利,多项式,高斯三个变体。伯努利是一个二项分布,多项式是离散分布,高斯是连续分布。用在不同的场景里: 伯 ...
分类:
编程语言 时间:
2019-03-23 17:30:40
阅读次数:
185
1、面试官是根据简历来进行面试,一定要把简历上的要点内容搞熟搞懂。 2、在linux系统上进行编程,列举常用的linux命令,以及命令的参数。 3、常用的设计模式有哪些; 4、类的对象的复制原理; 5、什么是虚函数?为什么要用虚函数? 6、STL模板库; 7、你知道哪些机器学习算法?列举一些,并细问 ...
分类:
其他好文 时间:
2019-03-23 16:14:00
阅读次数:
199
前些天与一位NLP大牛交流,请教其如何提升技术水平,其跟我讲务必要重视“NLP的最基本知识”的掌握。掌握好最基本的模型理论,不管是对日常工作和后续论文的发表都有重要的意义。小Dream听了不禁心里一颤,那些自认为放在“历史尘埃”里的机器学习算法我都只有了解了一个大概,至于NLP早期的那些大作也鲜有拜 ...
分类:
编程语言 时间:
2019-03-18 01:20:37
阅读次数:
562
集成学习: 集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。 目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。 集成学习主要思想: ...
分类:
其他好文 时间:
2019-02-27 20:36:53
阅读次数:
221
一、简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致在面试的时候大家也非常喜 ...
分类:
其他好文 时间:
2019-02-25 23:26:16
阅读次数:
590
[深度学习工具]·极简安装Dlib人脸识别库 [深度学习工具]·极简安装Dlib人脸识别库 Dlib介绍 Dlib介绍 Dlib介绍 Dlib是一个现代化的C ++工具箱,其中包含用于在C ++中创建复杂软件以解决实际问题的机器学习算法和工具。它广泛应用于工业界和学术界,包括机器人,嵌入式设备,移动 ...
分类:
其他好文 时间:
2019-02-23 11:00:06
阅读次数:
162
《分布式机器学习:算法、理论与实践》旨在全面介绍分布式机器学习的现状,深入分析其中的核心技术问题,并且讨论该领域未来的发展方向。 下载:https://pan.baidu.com/s/1XeOGCQK5qWCba8VK0KU21w《分布式机器学习:算法、理论与实践》PDF,273页,带书签目录,文字 ...
分类:
编程语言 时间:
2019-02-20 10:10:01
阅读次数:
1185
```
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_classification def initialize_params(dims):... ...
分类:
编程语言 时间:
2019-02-18 14:16:52
阅读次数:
191
十大经典数据挖掘算法(详细说明) 数据挖掘十大经典算法 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属 ...
分类:
编程语言 时间:
2019-02-06 22:42:19
阅读次数:
183