2.1 缺失值观察与处理 (1)请查看每个特征缺失值个数 df[df.Age.isna()] (2)缺失值处理方法 填充方法: 思考: ...
分类:
其他好文 时间:
2021-06-18 19:22:41
阅读次数:
0
通过特定的统计方法(数学方法)将数据转换成算法要求的数据 数值行数据:标准缩放: 1.归一化 2.标准化 类别型数据:one-hot编码 时间类型:时间的切分 sklearn特征处理API: sklearn.preprocessing 归一化: 特点:通过对原始数据进行变化把数据映射到(默认为【0, ...
分类:
其他好文 时间:
2021-01-14 11:08:01
阅读次数:
0
一、VectorAssembler package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.VectorAssembler import org.apache.spa ...
分类:
其他好文 时间:
2020-10-18 09:57:35
阅读次数:
15
import pandas as pd data = pd.read_csv("train.csv") #确定每一列,或者叫每一个series下,是否有空数据 columns_name = data.columns.tolist() columns_name_true_false={} print( ...
分类:
其他好文 时间:
2020-08-17 17:53:50
阅读次数:
108
1.数据处理时缺失指怎么处理 2.L1和L2的区别 3.高维数据如何降维 4.特征处理,连续型和非连续性,给了个例子,年龄和user_id两个特征如何处理 5.LR了解吗,如何解决过拟合问题 6.如何评估模型结果,我把分类和回归分别解释,介绍各种评估方式的不足,还问了ROC曲线横纵坐标 7.Rand ...
分类:
其他好文 时间:
2020-07-28 22:38:27
阅读次数:
115
Restful规范 什么是Restful规范? Restful规范就是一个定义web api接口的规范,它及其适用于前后端分离的情况 Resetful规范十条 数据的安全保障:推荐采用https协议,提高数据交互时的安全性 接口的特征表现:便于人一眼就看出这是一个接口,推荐使用api关键字表示接口u ...
分类:
其他好文 时间:
2020-07-13 00:00:23
阅读次数:
100
## **文档说明**本文档主要记录模型融合的有关问题:为了使项目在模型预测有更好的表现,综合机器学习方面的模型融合技术,以提升算法在解决问题的能力。 ## **使用背景** 业务情节:接单阶段; 时间段:2020 数据量:160W 特征数(本篇不对特征处理做说明):20 ## **数据处理**综合 ...
分类:
其他好文 时间:
2020-07-03 19:51:48
阅读次数:
68
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声、对抗数据稀疏问题。它在尽可能维持原始数据的内在结构的前提下,得到一组描述原数据的,低维度的隐式特征(或 ...
分类:
编程语言 时间:
2020-06-07 00:46:37
阅读次数:
116
处理连续性特征 二值化与分段 sklearn.preprocessing.Binarizer根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作,分析人员可以 ...
分类:
其他好文 时间:
2020-05-28 16:24:21
阅读次数:
80
文章目录 4. Pipelines 管道5. Cross-Validation 交叉验证上一篇:【Kaggle】Intermediate Machine Learning(缺失值+文字特征处理) 4. Pipelines 管道 该模块可以把数据前处理+建模整合起来 好处: 更清晰的代码:在预处理的每 ...
分类:
系统相关 时间:
2020-05-13 23:37:13
阅读次数:
108