Java实现乳腺癌诊断(分类)实验总结 朴素贝叶斯分类器、SVM(5行代码实现) 实验源码:https://gitee.com/LiuXingwu/sharing 1.问题描述 某研究获取了若干乳腺癌诊断数据,存放于breast cancer数据.txt 中。每个样本第一个数值为ID,随后10列为十 ...
分类:
编程语言 时间:
2021-02-18 13:28:12
阅读次数:
0
概率论研究那些受到随机事件(random events)影响的现象,它们具有很大的不确定性。 基础定义 讨论概率时,最重要的就是不确定性的思想,我们需要引入一个足够宽泛的、用于处理不确定性的概念。偶然性试验(chance experiment)或随机试验(random experiment)是产生不 ...
分类:
其他好文 时间:
2021-02-17 15:12:51
阅读次数:
0
0.写在前面的话 DSSM(Deep Structured Semantic Models)又称双塔模型,因其结构简单,在推荐系统中应用广泛;下面仅以召回、粗排两个阶段的应用举例,具体描述下DSSM在工业界实践的一些所见所闻,力求自身和大家都能有所收获。 1.网络结构 paper:Learning ...
分类:
其他好文 时间:
2021-02-10 13:01:22
阅读次数:
0
1. 样本量极少可以训练机器学习模型吗? 在训练样本极少的情况下(几百个、几十个甚至几个样本),现有的机器学习和深度学习模型普遍无法取得良好的样本外表现,用小样本训练的模型很容易陷入对小样本的过拟合以及对目标任务的欠拟合。但基于小样本的模型训练又在工业界有着广泛的需求(单用户人脸和声纹识别、药物研发 ...
分类:
其他好文 时间:
2021-02-01 12:24:44
阅读次数:
0
损失函数 总损失定义为: yi为第i个训练样本的真实值 h(xi)为第i个训练样本特征值组合预测函数 又称最小二乘法 正规方程 理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果 缺点:当特征过多过复杂时,求解速度太慢并且得不到结果 其中y是真实值矩阵,X是特征值矩阵,w是权重矩阵 对其求解关 ...
分类:
其他好文 时间:
2021-01-25 11:38:16
阅读次数:
0
不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书,那么应该选取多少个码字呢?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样 ...
分类:
其他好文 时间:
2021-01-20 11:55:49
阅读次数:
0
#AVAssetReader介绍 可以通过AVAssetReader获取视频文件里媒体样本,可以直接从存储器中读取未解码的原始媒体样本,获得解码成可渲染形式的样本。 文档里说明AVAssetrader管道内部是多线程的。初始化之后,读取器在使用前加载并处理合理数量的样本数据,以copyNextSam ...
分类:
其他好文 时间:
2021-01-19 12:04:03
阅读次数:
0
K-近邻算法 什么是K-近邻算法 你的“邻居”来推断出你的类别 1、K-近邻算法(KNN) 1.1 定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover和Hart提出的一种分类算法 1.2 距离公 ...
分类:
编程语言 时间:
2021-01-16 11:59:04
阅读次数:
0
1、criterion: 特征选取标准。 默认:gini。 可选gini(基尼系数)或者entropy(信息增益)。 1.1 选择entropy,则是ID3或C4.5算法。 ID3算法原理: a 计算训练集所有样本的信息熵。 b 计算每一特征分类后的信息增益。 c 选择信息增益最大的特征进行分类,得 ...
分类:
其他好文 时间:
2021-01-06 12:02:48
阅读次数:
0
https://www.bilibili.com/video/BV184411Q7Ng?p=12 注解: 这里了的降维不是指数组的维度,不是1维、2维、3维那个维。 注解: 这个是3维的特征转换为2维的特征。 降维就是把样本的特征的数量减少,比如在分辨男女的时候,把每个样本里面的特征肤色去掉。 注解 ...
分类:
其他好文 时间:
2021-01-04 10:53:13
阅读次数:
0