import codecs import collections from operator import itemgetter # 1. 设置参数。 MODE = "PTB" # 将MODE设置为"PTB", "TRANSLATE_EN", "TRANSLATE_ZH"之一。 if MODE ==... ...
分类:
编程语言 时间:
2019-12-19 16:12:57
阅读次数:
99
大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在政务、医疗、交通、教育、电商、零售和制造业领域,大数据每年可以提高劳动生产率1-2个百分点。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。然而调查显示,未被使用的数据比例高达99.4%
分类:
Web程序 时间:
2019-12-18 10:58:47
阅读次数:
241
数据分析与挖掘 学习&实战记录 从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是 数据挖掘 。 数据挖掘基础 数据挖掘基本任务 数据挖掘的基本任务包括利用分类预测、聚类分析、关联规则 ...
分类:
其他好文 时间:
2019-12-18 09:24:38
阅读次数:
110
6.3 preprocessing data数据预处理 https://scikit learn.org/stable/modules/preprocessing.html standardization or mean removal and variance scaling 归一化、正则化、标准 ...
分类:
其他好文 时间:
2019-12-16 17:46:37
阅读次数:
124
<! TOC "kaggle竞赛" "获取和读取数据集" "数据预处理" "找出所有数值型的特征,然后标准化" "处理离散值特征" "转化为DNArray后续训练" "训练模型" "k折交叉验证" "预测样本,并提交结果" <! /TOC kaggle竞赛 本节将动手操作实践一个kaggle比赛,房 ...
分类:
其他好文 时间:
2019-12-14 11:45:48
阅读次数:
202
文章来源:https://www.jianshu.com/p/29226aeecb60 仅为自己学习记录使用 大家好,学渣的wepy采坑之路又来啦....还记得当初自己的第一个项目传参的时候 页面之间传值怎么做啊..问问度娘 看看小程序的api 噢 很简单啊.. url拼接 和'GET'请求很像嘛. ...
分类:
其他好文 时间:
2019-11-28 19:27:31
阅读次数:
204
基本思想:通过迭代寻找K个簇的一种划分方法,使得聚类结果对应的代价函数最小。特别地,代价函数可以定义为各个样本距离所属聚类中心的误差平方和 $$J(c, \mu) = \sum \limits_{i=1}{M}||x_i \mu_{c_i}||^2?$$ 具体步骤 数据预处理,如归一化、离群点处理等 ...
分类:
其他好文 时间:
2019-11-24 15:51:17
阅读次数:
70
本篇是机器学习小组第3周的学习内容输出,参考资料包括: 机器学习的敲门砖:归一化与KD树 https://mp.weixin.qq.com/s?__biz=MzI4MjkzNTUxMw==&mid=2247483857&idx=3&sn=5a4573e5fe074241a45f6affb969448 ...
分类:
其他好文 时间:
2019-11-24 15:36:12
阅读次数:
80
回归分析好久都没有了解了。下面再复习下。 **1.波士顿房产数据(完整)**通过如下代码即可获取所有数据 ``` from sklearn.datasets import load_boston boston = load_boston() print (boston.DESCR) ``` 波士顿房 ...
分类:
其他好文 时间:
2019-11-24 12:17:41
阅读次数:
80
在数据预处理中,我们需要采集前的数据是非常庞大的。不妨将数据集D视作一个矩阵,每一行对应一个样本,每一列对应某个特征。 而在现实生活中,例如文档分类任务,以每一个字词作为一个特征,特征属性多大成千上万,即数千数万列,而相当一部分特征对于所考虑的问题具有“稀疏性”,也就是矩阵中许多列与当前学习任务无关 ...
分类:
其他好文 时间:
2019-11-20 21:59:31
阅读次数:
81