码迷,mamicode.com
首页 >  
搜索关键字:特征处理    ( 59个结果
动手数据分析-泰坦尼克案例(数据清洗及特征处理)
2.1 缺失值观察与处理 (1)请查看每个特征缺失值个数 df[df.Age.isna()] (2)缺失值处理方法 填充方法: 思考: ...
分类:其他好文   时间:2021-06-18 19:22:41    阅读次数:0
特征处理
通过特定的统计方法(数学方法)将数据转换成算法要求的数据 数值行数据:标准缩放: 1.归一化 2.标准化 类别型数据:one-hot编码 时间类型:时间的切分 sklearn特征处理API: sklearn.preprocessing 归一化: 特点:通过对原始数据进行变化把数据映射到(默认为【0, ...
分类:其他好文   时间:2021-01-14 11:08:01    阅读次数:0
Spark ML 特征处理类之 VectorAssembler 向量装配转换器/VectorIndexer
一、VectorAssembler package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.VectorAssembler import org.apache.spa ...
分类:其他好文   时间:2020-10-18 09:57:35    阅读次数:15
泰坦尼克号预测生存可能性
import pandas as pd data = pd.read_csv("train.csv") #确定每一列,或者叫每一个series下,是否有空数据 columns_name = data.columns.tolist() columns_name_true_false={} print( ...
分类:其他好文   时间:2020-08-17 17:53:50    阅读次数:108
数据分析-机器学习面试题
1.数据处理时缺失指怎么处理 2.L1和L2的区别 3.高维数据如何降维 4.特征处理,连续型和非连续性,给了个例子,年龄和user_id两个特征如何处理 5.LR了解吗,如何解决过拟合问题 6.如何评估模型结果,我把分类和回归分别解释,介绍各种评估方式的不足,还问了ROC曲线横纵坐标 7.Rand ...
分类:其他好文   时间:2020-07-28 22:38:27    阅读次数:115
Restful规范
Restful规范 什么是Restful规范? Restful规范就是一个定义web api接口的规范,它及其适用于前后端分离的情况 Resetful规范十条 数据的安全保障:推荐采用https协议,提高数据交互时的安全性 接口的特征表现:便于人一眼就看出这是一个接口,推荐使用api关键字表示接口u ...
分类:其他好文   时间:2020-07-13 00:00:23    阅读次数:100
机器学习融合想法记录(未完成版)
## **文档说明**本文档主要记录模型融合的有关问题:为了使项目在模型预测有更好的表现,综合机器学习方面的模型融合技术,以提升算法在解决问题的能力。 ## **使用背景** 业务情节:接单阶段; 时间段:2020 数据量:160W 特征数(本篇不对特征处理做说明):20 ## **数据处理**综合 ...
分类:其他好文   时间:2020-07-03 19:51:48    阅读次数:68
python机器学习(七) 奇异值分解-SVD
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声、对抗数据稀疏问题。它在尽可能维持原始数据的内在结构的前提下,得到一组描述原数据的,低维度的隐式特征(或 ...
分类:编程语言   时间:2020-06-07 00:46:37    阅读次数:116
机器学习实战基础(十二):sklearn中的数据预处理和特征工程(五) 数据预处理 Preprocessing & Impute 之 处理分类特征:处理连续性特征 二值化与分段
处理连续性特征 二值化与分段 sklearn.preprocessing.Binarizer根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作,分析人员可以 ...
分类:其他好文   时间:2020-05-28 16:24:21    阅读次数:80
【Kaggle】Intermediate Machine Learning(管道+交叉验证)
文章目录 4. Pipelines 管道5. Cross-Validation 交叉验证上一篇:【Kaggle】Intermediate Machine Learning(缺失值+文字特征处理) 4. Pipelines 管道 该模块可以把数据前处理+建模整合起来 好处: 更清晰的代码:在预处理的每 ...
分类:系统相关   时间:2020-05-13 23:37:13    阅读次数:108
59条   1 2 3 4 ... 6 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!