BERT源码分析PART III 写在前面 为了方便查阅,我将完整的BERT源码分析整理成了PDF版本,可以在微信公众号NewBeeNLP后台直接下载。 继续之前没有介绍完的Pre-training部分,在上一篇中我们已经完成了对输入数据的处理,接下来看看BERT是怎么完成Masked LM和Nex ...
分类:
其他好文 时间:
2020-05-10 13:00:30
阅读次数:
97
Weka算法翻译(部分) 只翻译了感兴趣的一些算法,都是一些简单的算法。 [TOC] 1. 属性选择算法(select attributes) 1.1 属性评估方法 1. CfsSubsetEval:通过考虑每个特征的单独预测能力以及它们之间的冗余成都来评估属性子集的价值 2. Classifier ...
分类:
编程语言 时间:
2020-01-31 14:33:55
阅读次数:
141
在图片分类的中经常可以看到Top-1,Top-5等TopN准确率(或者时错误率)。
那这个TopN是什么意思呢?首先Top-1准确率最好理解,就是我们用argmax从网络输出取到的预测index与真实index的准确率。
Top-5准确率就是指从网络输出取到的预测概率最大5个index与真实的i... ...
分类:
其他好文 时间:
2019-05-13 20:11:23
阅读次数:
147
推荐系统遇上深度学习(一)--FM模型理论和实践 https://www.jianshu.com/p/152ae633fb00 1、FM背景 在计算广告和推荐系统中,CTR预估(click-through rate)是非常重要的一个环节,判断一个商品的是否进行推荐需要根据CTR预估的点击率来进行。在 ...
分类:
其他好文 时间:
2019-04-22 12:39:04
阅读次数:
415
参考了这个博客:https://blog.csdn.net/tsyccnh/article/details/79163834 主要用于多分类、单分类任务中,计算loss,交叉熵定义如下: 其中: p是实际概率,在机器学习中通常为label值,且取值为0或则1 q是预测概率,在机器学习中通常为预测结果 ...
分类:
其他好文 时间:
2018-11-13 23:55:38
阅读次数:
201
1. 信息熵 1.1 信息熵的数学本质 一个随机变量或系统所包含信息量的数学期望 1.2 信息熵的物理意义(信息论解释) 对随机变量的所有取值进行编码所需的最短编码长度 消除随机变量的不确定性所需的最短编码长度即为信息熵 1.3 随机变量X的熵: $H(X) = \sum_{i=1}^{n} P(x ...
分类:
其他好文 时间:
2018-10-27 23:32:28
阅读次数:
236
纲要 boss说增加项目平台分析方法: T检验(独立样本T检验)、线性回归、二元Logistics回归、因子分析、可靠性分析 根本不懂,一脸懵逼状态,分析部确实有人才,反正我是一脸懵 首先解释什么是二元Logistic回归分析吧 二元Logistics回归 可以用来做分类,回归更多的是用于预测 官方 ...
分类:
编程语言 时间:
2018-10-25 17:07:08
阅读次数:
263
对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找“正在做”大数据的49个样本。力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律: 一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率; ...
分类:
其他好文 时间:
2018-10-12 11:06:18
阅读次数:
171
转https://www.zybuluo.com/frank-shaw/note/152851 新理解:我认为auc,和ks异曲同工。auc是根据预测概率(由大到小排序)作为阈值,可分割为不多于样本个数n个阈值。即可得到n个recall和precision把这些点连成线即为roc曲线。auc即为ro ...
分类:
其他好文 时间:
2018-09-30 00:53:22
阅读次数:
431
本篇博客主要是对周志华“机器学习”中集成学习这一章的摘抄,总结,以及自己使用过程中的一点经验。 1、集成学习的基本概念、条件及意义 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委 ...
分类:
其他好文 时间:
2018-09-09 23:32:57
阅读次数:
280