大数据分析处理评测方法 效果与效率 (以分类模型为例) 效果 准确率 模型对未标注数据做作出的判断中,正确的比例 例子: 准确率看行,召回率看列 召回率 它是对于某个类别,模型正确判断的该样本个数占该类样本总数的比例 F值 效率 时间复杂度 空间复杂度 吞吐率 加速比 ...
分类:
其他好文 时间:
2020-03-07 09:48:25
阅读次数:
189
[TOC] 统计学习 对象:data 目的:预测和分析 方法 监督,无监督,强化学习 基本分类 1. 监督学习 从标注数据中学习预测模型 建设$(X,Y)$遵循联合概率分布$P(X,Y)$, 样本独立同分布 假设空间:输入空间到输出空间映射的集合 2. 无监督 $X$是输入空间,$Z$是隐式结构空间 ...
分类:
其他好文 时间:
2020-01-05 10:13:03
阅读次数:
95
数据的导入 默认情况下数据导入时,字符型变量将转化为因子。若不希望转化,可设置 stringsAsFactors=FALSE 从带分隔符的文本文件中导入数据 read.table() file --> 带分隔符的ASVII文本文件 header --> 表面首行是否包含了变量名 sep --> 指定 ...
分类:
其他好文 时间:
2019-12-04 20:22:00
阅读次数:
98
@Controller 标注为一个控制器类 @RestController 包含@Controller @ResponseBody 默认返回json格式 @Service 标注为业务层组件 @Repository 标注数据访问组件,即DAO组件 @Component 泛指组件 @Autowired ...
分类:
编程语言 时间:
2019-09-03 23:55:44
阅读次数:
199
"深入理解wmd算法" WMD(Word Mover’s Distance) "1" 是2015年提出的一种衡量文本相似度的方法。它具有以下几个优点: 效果出色:充分利用了 "word2vec" 的领域迁移能力 无监督:不依赖标注数据,没有冷启动问题 模型简单:仅需要词向量的结果作为输入,没有任何超 ...
分类:
编程语言 时间:
2019-08-31 21:26:54
阅读次数:
148
@RestController 远程调用接口 1、@controller 控制器(注入服务) 用于标注控制层,相当于struts中的action层 2、@service 服务(注入dao) 用于标注服务层,主要用来进行业务的逻辑处理 3、@repository(实现dao访问) 用于标注数据访问层, ...
分类:
其他好文 时间:
2019-07-10 10:32:09
阅读次数:
102
迁移学习概述背景随着越来越多的机器学习应用场景的出现,而现有表现比较好的监督学习需要大量的标注数据,标注数据是一项枯燥无味且花费巨大的任务,所以迁移学习受到越来越多的关注。传统机器学习(主要指监督学习) 基于同分布假设 需要大量标注数据 然而实际使用过程中不同数据集可能存在一些问题,比如 数据分布差 ...
分类:
其他好文 时间:
2019-07-07 16:09:50
阅读次数:
1106
数据标注就是使用自动化工具通过分类、画框、注释等等对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。 数据标注的对象主要分为文本、图片、音频、视频四个种类: 文本标注主要包括情感分析、知识库、关键词提取、文字翻译、搜索引擎优化等。就比如,识别一句话蕴含的情感,翻译等等; 图片标注主要包 ...
分类:
其他好文 时间:
2019-05-14 19:12:47
阅读次数:
171
方法1:无监督,不使用额外的标注数据 average word vectors:简单的对句子中的所有词向量取平均,是一种简单有效的方法, 缺点: 没有考虑到单词的顺序 ,只对15个字以内的短句子比较有效,丢掉了词与词间的相关意思,无法更精细的表达句子与句子之间的关系。 tfidf weighting ...
分类:
其他好文 时间:
2019-05-13 16:24:05
阅读次数:
370
1、@controller 控制器 用于标注控制层,相当于struts中的action层。 2、@service 服务层 用于标注服务层,主要用来进行业务的逻辑处理。 3、@repository DAO层(Repo层) 用于标注数据访问层,也可以说用于标注数据访问组件,即DAO组件。 4、@Auto ...
分类:
编程语言 时间:
2019-04-24 12:17:04
阅读次数:
642