搜索关键字：数据预处理，搜索到485个结果！码迷,mamicode.com！

吴裕雄--天生自然 pythonTensorFlow自然语言处理：文本数据预处理--生成词汇表

import codecs import collections from operator import itemgetter # 1. 设置参数。 MODE = "PTB" # 将MODE设置为"PTB", "TRANSLATE_EN", "TRANSLATE_ZH"之一。 if MODE ==... ...

分类：编程语言时间：2019-12-19 16:12:57 阅读次数：99

什么工具能让你采集BS网页或CS软件系统的数据时，事半功倍？

大数据开启了一个大规模生产、分享和应用数据的时代，它给技术和商业带来了巨大的变化。麦肯锡研究表明，在政务、医疗、交通、教育、电商、零售和制造业领域，大数据每年可以提高劳动生产率1-2个百分点。大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。然而调查显示，未被使用的数据比例高达99.4%

分类：Web程序时间：2019-12-18 10:58:47 阅读次数：241

数据分析与挖掘

数据分析与挖掘学习&实战记录从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程，就是数据挖掘。数据挖掘基础数据挖掘基本任务数据挖掘的基本任务包括利用分类预测、聚类分析、关联规则 ...

分类：其他好文时间：2019-12-18 09:24:38 阅读次数：110

sklearn包

6.3 preprocessing data数据预处理 https://scikit learn.org/stable/modules/preprocessing.html standardization or mean removal and variance scaling 归一化、正则化、标准 ...

分类：其他好文时间：2019-12-16 17:46:37 阅读次数：124

动手学深度学习17-kaggle竞赛实践小项目房价预测

<! TOC "kaggle竞赛" "获取和读取数据集" "数据预处理" "找出所有数值型的特征，然后标准化" "处理离散值特征" "转化为DNArray后续训练" "训练模型" "k折交叉验证" "预测样本，并提交结果" <! /TOC kaggle竞赛本节将动手操作实践一个kaggle比赛，房 ...

分类：其他好文时间：2019-12-14 11:45:48 阅读次数：202

Wepy预处理数据$preload

文章来源：https://www.jianshu.com/p/29226aeecb60 仅为自己学习记录使用大家好,学渣的wepy采坑之路又来啦....还记得当初自己的第一个项目传参的时候页面之间传值怎么做啊..问问度娘看看小程序的api 噢很简单啊.. url拼接和'GET'请求很像嘛. ...

分类：其他好文时间：2019-11-28 19:27:31 阅读次数：204

K均值聚类

基本思想：通过迭代寻找K个簇的一种划分方法，使得聚类结果对应的代价函数最小。特别地，代价函数可以定义为各个样本距离所属聚类中心的误差平方和 $$J(c, \mu) = \sum \limits_{i=1}{M}||x_i \mu_{c_i}||^2?$$ 具体步骤数据预处理，如归一化、离群点处理等 ...

分类：其他好文时间：2019-11-24 15:51:17 阅读次数：70

简单数据预处理和特征工程

本篇是机器学习小组第3周的学习内容输出，参考资料包括：机器学习的敲门砖：归一化与KD树 https://mp.weixin.qq.com/s?__biz=MzI4MjkzNTUxMw==&mid=2247483857&idx=3&sn=5a4573e5fe074241a45f6affb969448 ...

分类：其他好文时间：2019-11-24 15:36:12 阅读次数：80

机器学习中回归分析（多变量）

回归分析好久都没有了解了。下面再复习下。 **1.波士顿房产数据（完整）**通过如下代码即可获取所有数据 ``` from sklearn.datasets import load_boston boston = load_boston() print (boston.DESCR) ``` 波士顿房 ...

分类：其他好文时间：2019-11-24 12:17:41 阅读次数：80

稀疏矩阵存储方式

在数据预处理中，我们需要采集前的数据是非常庞大的。不妨将数据集D视作一个矩阵，每一行对应一个样本，每一列对应某个特征。而在现实生活中，例如文档分类任务，以每一个字词作为一个特征，特征属性多大成千上万，即数千数万列，而相当一部分特征对于所考虑的问题具有“稀疏性”，也就是矩阵中许多列与当前学习任务无关 ...

分类：其他好文时间：2019-11-20 21:59:31 阅读次数：81

共485条上一页 1 ... 12 13 14 15 16 ... 49 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)