Word Mover的距离(WMD)是用于衡量两个文档之间差异的距离度量,它在文本分析中的应用是由华盛顿大学的一个研究小组在2015年引入的。该小组的论文“ 从Word嵌入到文档距离”发表了在第32届国际机器学习大会(ICML)上。在本文中,他们证明了WMD度量导致8个真实世界文档分类数据集中前所未 ...
分类:
其他好文 时间:
2018-07-16 15:05:36
阅读次数:
195
案例:在阅读文章时,推荐相似的文章. 这个案例简单粗暴,尤其是我看小说的时候,闹书荒的时候,真的很希望有这样的功能.(PS:我现在就职于某小说公司) 那么,如何衡量文章之间的相似度? 在开始讲之前,先提一下elasticsearch. elasticsearch所使用的索引方式被称为倒排索引.将文档 ...
分类:
编程语言 时间:
2018-07-06 20:24:14
阅读次数:
189
项目地址:http://phototour.cs.washington.edu/ Photo Tourism是华盛顿大学的SFM重建的过程 Paper:Photo Tourism: Exploring Photo Collections in 3D 文章提出的方法如下: (1)提取SIFT特征点; ...
分类:
其他好文 时间:
2018-06-04 22:36:45
阅读次数:
1248
“成功与智商无关,关键在于理智。” “作为领导者,我必须营造一种危机感。” “我死后大约 5年内,都将一直工作。” 以上金句都出自,1998年在华盛顿大学的一场精彩对话,对话的两人即是常年盘踞在全球富豪榜前两位的比尔盖茨和巴菲特。 在这场颇具历史意义的尖峰对话中,两位大富翁分享了各自对成功和创新的理 ...
分类:
其他好文 时间:
2018-05-01 14:10:34
阅读次数:
200
华盛顿大学 机器学习 笔记。 k-means的局限性 k-means 是一种硬分类(hard assignment)方法,例如对于文档分类问题,k-means会精确地指定某一文档归类到某一个主题,但很多时候硬分类并不能完全描述这个文档的性质,这个文档的主题是混合的,这时候需要软分类(soft ass ...
分类:
其他好文 时间:
2018-04-19 17:45:40
阅读次数:
244
XGBoost是近年来很受追捧的机器学习算法,由华盛顿大学的陈天奇提出,在国内外的很多大赛中取得很不错的名次,要具体了解该模型,可以移步GitHub,本文介绍其在Widows系统下基于Git的python版本的安装方法。 需要用到三个软件: python软件(本文基于Anaconda,因为自带很多库 ...
华盛顿大学 《机器学习》 笔记。 knn k-nearest-neighbors : k近邻法 给定一个 数据集,对于查询的实例,在数据集中找到与这个实例最邻近的k个实例,然后再根据k个最邻近点预测查询实例的类别。 《统计学习方法》中这样描述的: K近邻模型是基于训练数据集 对 特征空间的一个划分。 ...
分类:
其他好文 时间:
2018-03-29 13:27:23
阅读次数:
203
coursera 上的 华盛顿大学 machine learning: regression 第四周笔记 通常, 过拟合的一个表现是拟合模型的参数很大。 为了防止过拟合 Total cost = measure of fit + measure of magnitude of coefficient ...
分类:
其他好文 时间:
2018-03-01 00:42:39
阅读次数:
203
XGBoost 与 Boosted Tree http://www.52cs.org/?p=429 作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。 注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boos ...
分类:
其他好文 时间:
2018-01-19 15:39:09
阅读次数:
228
"Coursera" "CSE341: Programming Languages" 感谢华盛顿大学 "Dan Grossman" 老师 以及 "Coursera" 。 碎言碎语 这只是 Programming Languages 这门课程第一部分,在 Part A 中通过 "Standard ML ...
分类:
其他好文 时间:
2017-12-14 21:07:41
阅读次数:
168