2019年下半年参加的一场比赛,复赛排名13。本次比赛提供的是一个法律领域的短文本匹配任务,这题的难点在于A榜中存在较多的对抗样本, 并且B榜中的对抗性样本较A榜中更多。 所以这次比赛中除去系统的准确性外,系统的鲁棒性也是很重要。 训练集构建 本次比赛中数据集以问题组的方式给出, 问题组中的问题分为 ...
分类:
其他好文 时间:
2020-04-30 09:39:00
阅读次数:
74
一、用自己的话描述出其本身的含义: 1、特征选择 特征选择就是从所有特征中选择部分特征作为训练集,即对现有特征的“取其精华,去其糟粕”,特征在选择前后。可以改变值、也可以不改变值,只是选择后的特征维数肯定要比选择前小。 2、PCA 它是一种分析,简化数据集的技术。,是数据维数压缩,尽可能尽可能降低原 ...
分类:
其他好文 时间:
2020-04-28 09:32:16
阅读次数:
53
一、用自己的话描述出其本身的含义: 1、特征选择 特征选择就是从所有特征中选择部分特征作为训练集,即对现有特征的“取其精华,去其糟粕”,特征在选择前后 可以改变值、也可以不改变值,只是选择后的特征维数肯定要比选择前小。 2、PCA PCA是一种分析、简化数据集的技术,主要是将数据的主成分(包含信息量 ...
分类:
其他好文 时间:
2020-04-27 19:31:34
阅读次数:
47
? 出处 : 2019ICIP 作者: 摘要 : 提出一个检测人脸图像拼接的深度网络。把输入图像转换为illumination map (IM),然后比较面部区域的 pairs 来检测拼接篡改。先在外部的训练集上训练孪生网络来区分来自相似或不同光照环境illumination environment ...
分类:
其他好文 时间:
2020-04-27 09:31:05
阅读次数:
64
简介 这一次我们来讲一下比较轻松简单的数据挖掘的算法——K Means算法。K Means算法是一种 无监督 的聚类算法。什么叫无监督呢?就是对于训练集的数据,在训练的过程中,并没有告诉训练算法某一个数据属于哪一个类别。对于K Means算法来说,他就是通过某一些骚操作,将一堆“相似”的数据聚集在一 ...
分类:
编程语言 时间:
2020-04-23 09:11:58
阅读次数:
90
1.什么是K近邻算法 最直观的解释就是:给定一个训练数据集,对于新的输入实例,在训练集中找到与该实例最近邻的 k 个实例,这 k 个实例的多数属于哪个类,则该实例就属于哪个类。 2.K近邻算法的优缺点 优点:精度高,对异常值不敏感 缺点:计算复杂度高,空间复杂度高 3.K近邻算法关键点分析 由K近邻 ...
分类:
编程语言 时间:
2020-04-20 15:44:24
阅读次数:
63
问题描述 给出两个整数集合A、B,求出他们的交集、并集以及B在A中的余集。 输入格式 第一行为一个整数n,表示集合A中的元素个数。 第二行有n个互不相同的用空格隔开的整数,表示集合A中的元素。 第三行为一个整数m,表示集合B中的元素个数。 第四行有m个互不相同的用空格隔开的整数,表示集合B中的元素。 ...
分类:
编程语言 时间:
2020-04-16 19:49:52
阅读次数:
127
将60000张图片划分为42000张训练集和18000张图片将这些数据图片进行预处理贴上标签,然后用机器学习算法对训练数据进行训练,从而得到一个模型,之后用测试集对模型进行评估。 ...
分类:
其他好文 时间:
2020-04-13 16:38:50
阅读次数:
45
(一)贝叶斯理论 1.设x={a1,a2,a3,...,an}为一个待分类项,而a为x的一个特征属性 2.有类别集合C={y1,y2,...,yn} 3.计算P(y1|x), P(y2|x), P(y3|x),...,P(yn|x) 4.比较得出结果 (二)根据训练集计算P(yi|x): 1.统计在 ...
分类:
编程语言 时间:
2020-04-09 16:43:55
阅读次数:
80
1、准备数据 cifar2数据集为cifar10数据集的子集,只包括前两种类别airplane和automobile。 训练集有airplane和automobile图片各5000张,测试集有airplane和automobile图片各1000张。 cifar2任务的目标是训练一个模型来对飞机air ...
分类:
其他好文 时间:
2020-04-06 20:48:30
阅读次数:
159