上一节我们学习了Pytorch优化网络的基本方法,本节我们将以MNIST数据集为例,通过搭建一个完整的神经网络,来加深对Pytorch的理解。 一、数据集 MNIST是一个非常经典的数据集,下载链接:http://yann.lecun.com/exdb/mnist/ 下载下来的文件如下: 该手写数字 ...
分类:
其他好文 时间:
2020-09-17 23:54:41
阅读次数:
29
1.模型评估之参数选择 2.来吧,展示 #模型评估之参数选择#k:1-25#遍历所有可能的参数组合#建立相应的model#model训练和预测#测试数据的准确率计算#查看最高准确率对应的k值 #遍历所有可能的参数组合#建立相应的model #model训练和预测#训练数据的准确率计算 #测试数据准确 ...
分类:
其他好文 时间:
2020-09-17 23:47:31
阅读次数:
29
1.训练集数据量大,测试集数据了小,容易在复赛过拟合 2.数据:个人信息 App的使用信息 个人消费记录 3.处理过程: 1)数据清洗 1.1 对缺失值的对维度处理 1.1.1 按列属性统计缺失值(可视化) 剔除缺失值比例高的属性(90%左右); 缺失值比例在40%~60%(缺省型-1); 确实在2 ...
分类:
其他好文 时间:
2020-09-17 22:31:23
阅读次数:
28
BUPT T4 目前已掌握:ABCDEFGHKA:要你求 思路:队友做的0.0,大概的想法是有的,但是赛中没继续往下想队友就切了。首先求和符号里面的两个东西本质上是一个东西这样变成g[i]=i-1+2/i*sum(g[j-1]),然后要想着脱掉求和符号,就对式子两边先同乘i再进行差分ig[i]-(i ...
分类:
其他好文 时间:
2020-09-17 21:36:00
阅读次数:
28
BUPT T3: 目前掌握:ABCDEFGHIJ A:多边形面积并模板题 思路:赛中完全不会这个算法。赛后看到两个算法。链接1 链接2链接2算法中并没图解,图片放在收藏里了.jpg B:n个圆的凸包。 思路:队友提供的思路,直接暴力把圆拆点,然后凸包(精度玄学) C:模拟,略 D:模拟,略 E:还是 ...
分类:
其他好文 时间:
2020-09-17 21:27:42
阅读次数:
22
1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上。 2.内容 这里举个消费Kafka的数据的场景。比如,电商平台、游戏平台产生的用户数据,入库到Kafka中的Topic进行存储,然 ...
分类:
其他好文 时间:
2020-09-17 17:38:24
阅读次数:
37
一般在有监督训练中,我们很自然地会用如下模式去预测测试集的分类:(以svm为例) svm.fit(x_train, y_train) y_pred=svm.predict(x_test) 那么无监督训练中是否也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进 ...
分类:
其他好文 时间:
2020-09-17 17:12:13
阅读次数:
39
由于语料短,训练时间也短,模型性能不好,以下演示过程。 语料链接: 数据格式如图(先英文,再空格,再繁体中文): 以下代码运行在Google Colab上。 导包: 1 import os 2 import sys 3 import math 4 from collections import Co ...
分类:
其他好文 时间:
2020-09-17 16:27:41
阅读次数:
29
数据 就目前来说,提升算法性能的更加可靠的方法仍然是训练更大的网络以及获取更多的数据 不要武断地认为测试集分布和训练集分布是一致的,仔细地评估数据集非常重要 开发集和测试集应该与你最终想要解决的数据分布一致,而训练集则未必需要符合这个要求 在训练数据不足的情况下,你可以尝试引入额外的训练数据,只要它 ...
分类:
系统相关 时间:
2020-09-16 12:42:19
阅读次数:
51
数据标注行业里有着这样的一段话:“有多少智能,就有多少人工”。这句话在某种程度上道出了人工智能的本质。?事实上,现阶段提升AI认知世界能力的最有效途径仍然是监督学习,而监督学习下的深度学习算法训练十分依赖于数据标注员进行标注数据。可以说,如果数据标注是人工智能行业的基石,那么数据标注员就是数据标注行业的基石。2020年2月,数据标注员被正式定义为“人工智能训练师”并纳入国家职业分类目录。人工智能训
分类:
其他好文 时间:
2020-09-14 19:19:03
阅读次数:
40