半监督学习 在有标签数据+无标签数据混合成的训练数据中使用的机器学习算法。一般假设,无标签数据比有标签数据多,甚至多得多。 要求: 无标签数据一般是有标签数据中的某一个类别的(不要不属于的,也不要属于多个类别的); 有标签数据的标签应该都是对的; 无标签数据一般是类别平衡的(即每一类的样本数差不多) ...
分类:
其他好文 时间:
2020-07-02 13:18:26
阅读次数:
60
用于多领域端到端任务导向对话系统的动态融合网络 摘要 最近的研究表明,大多数神经模型都依赖于大型训练数据,这些数据仅可用于一定数量的任务域,例如导航和调度。这使得难以用有限的标好的数据进行新领域的扩展。但是,关于如何有效地使用来自所有域的数据来提高每个域以及未知域的性能的研究相对较少。为此,我们研究 ...
分类:
Web程序 时间:
2020-06-29 11:16:25
阅读次数:
111
一、数据集切割 我们通常将数据及切割成两部分:训练数据集(Training Dataset);测试数据集(Testing Dataset). 注意:可采用分层抽样的方式进行,以保持数据在目标字段上分布的一致性。 1.数据分割 ? 80%训练数据→在训练数据上可以做任何的分析? 20%测试数据→在测试 ...
分类:
其他好文 时间:
2020-06-29 09:15:40
阅读次数:
58
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 本人电脑硬件相对落后,对运行虚拟机以及处理大量数据方面并不友好,因此我选择第二项kaggle分析数据项目:泰坦尼克号的生存预测。 二、实践方案 简要说明理由。 下载准备好数据集,使用训练数据集对模型行进行训 ...
分类:
其他好文 时间:
2020-06-23 20:56:37
阅读次数:
57
1. KNN原理 KNN(k-Nearest Neighbour):K-近邻算法,主要思想可以归结为一个成语:物以类聚 1.1 工作原理 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k (k <= 20)个实例,这 k 个实例的多数属于某个类, 就把该输入实例分为这个类。 ...
分类:
编程语言 时间:
2020-06-17 20:30:15
阅读次数:
92
非显著式编程的做法 收益函数 1998 Tom MitShell 第一本成熟的教科书:MACHINE LEARNING 典型的最优化问题 为数据打标签(独特行业) 监督学习 强化学习(与环境互动) 非监督学习 需要假设:同一类的训练数据在空间中距离更近->样本的空间信息->设计算法将其分成两类 非监 ...
分类:
其他好文 时间:
2020-06-17 10:44:59
阅读次数:
69
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将为大家展现Alink如何划分训练数据集和测试数据集。 ...
分类:
其他好文 时间:
2020-06-12 22:54:10
阅读次数:
95
参考链接1 参考链接2 一、介绍 极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示: D表示训练数据集,是模型参数 相反的,贝叶斯派认为参数也是随机 ...
分类:
其他好文 时间:
2020-06-09 23:27:55
阅读次数:
87
API。训练神经网络需要很多步骤。需要指定如何输入训练数据、初始化模型参数、在网络中执行向前和向后传递、基于计算的梯度更新权重、执行模型检查点等。在预测过程中,最终会重复这些步骤中的大多数步骤。对于新手和有经验的开发人员来说,所有这些都是非常令人望而生畏的。幸运的是,MXNet在module(简称m ...
分类:
Web程序 时间:
2020-06-06 18:30:37
阅读次数:
63
日记 背景:忽然接了个项目, 数院导师给的, 要求很简单, 就是识别变电站隔离开关状态,只要做个demo出来就可以。平时自己的导师也没给我项目做,所以我就尝试了一下,历时三天。 2020.1.16 说是没训练数据,于是自己百度识图找了30张图片,但多样性很大,比如: 1.开关种类多 2.角度多 3. ...
分类:
其他好文 时间:
2020-05-28 11:34:20
阅读次数:
64