码迷,mamicode.com
首页 >  
搜索关键字:缺失值    ( 264个结果
数据探索综合指南EDA 转发
数据探索综合指南 苏尼尔·雷( SUNIL RAY) 2016年1月10日 总览 有关数据探索(EDA)的完整教程 我们涵盖了数据探索的几个方面,包括缺失值估算,异常值去除和特征工程的技巧 介绍 没有数据浏览的捷径。如果您处于一种状态,那么机器学习可以使您摆脱每次数据风暴,相信我,事实并非如此。经过 ...
分类:其他好文   时间:2020-04-04 09:36:20    阅读次数:74
缺失值的常见填充方法
(1)如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了; (2)如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中; 【注:NaN(Not a Number,非数)是计算机科学中数值 ...
分类:其他好文   时间:2020-04-02 18:16:40    阅读次数:370
数据分析2 numpy(ndarray数组,属性,创建,索引切片,运算,函数,随机数), Pandas(Series创建,缺失值处理,特性,索引,DataFrame)
Numpy numpy数据类型 1.为啥使用numpy ? ndarray是一个多维数组列表 Numpy的核心特征就是N-维数组对 ndarray 它和python中的列表区别: 1.数组对象内元素类型必须相同 2.数组大小不可修改 2.创建ndarray 数组 3.常见的属性 数据类型 astyp ...
分类:编程语言   时间:2020-03-31 23:05:25    阅读次数:93
Pandas的对齐运算和函数
Pandas的对齐运算 是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaN Series的对齐运算 1. Series 按行、索引对齐 s1 = pd.Series(range(10, 20), index=range(10)) s2 = pd.Serie ...
分类:其他好文   时间:2020-03-29 19:31:40    阅读次数:90
pandas常用数据清洗方法
数据预处理常用函数 df.duplicated() :判断各行是重复,False为非重复值。 df.drop_duplicates():删除重复行 df.fillna(0):用实数0填充na df.dropna():按行删除缺失数据,使用参数axis=0;按列删除缺失值,使用参数axis=1,how ...
分类:其他好文   时间:2020-03-27 17:17:54    阅读次数:128
第十四节 pandas缺失值处理
import pandas as pd pd.options.display.max_rows = 10 # 设置显示行数 df1 = pd.read_csv(r'E:\anacondatest\PythonData\高校信息.csv', encoding='gbk', index_col='学校名 ...
分类:其他好文   时间:2020-03-25 01:05:00    阅读次数:78
讲一下数据分析有哪些步骤,在你做项目的过程中哪个步骤需要花费的时间最久?为什么?
数据分析的步骤 1.定义问题,明确需要解决的需求是什么。 2.问题拆分。对于最终需要解决或探索的问题,进行细分,拆分成不同层面的问题。 3.确定指标。根据不同的细分问题,确定需要探索的指标 4.数据收集。收集整理分析项目所需的数据。 5.数据清洗。删除重复数据,异常值,缺失值处理她,特征筛选,数据归 ...
分类:其他好文   时间:2020-03-20 16:58:08    阅读次数:99
缺失值处理
三种策略 1)简单策略:去掉有缺失值的列 2) 好一点的策略: 补缺失值 3) 更好的策略: 补缺失值并且加一标记缺失值位置的列 参考资料:https://vitu.ai/courses/lesson/65608728077977408/65599423157159744 ...
分类:其他好文   时间:2020-03-16 09:41:09    阅读次数:36
机器学习:集成算法 - xgboost
xgboost(eXtreme Gradient Boosting) 大规模并行 boosting tree 的工具,据说是现在最好用的 boosting 算法,针对传统 GBDT 算法做了很多改进 xgboost 和传统 GBDT 的区别 GBDT 基学习器只用 CART 树,而 xgboost ...
分类:编程语言   时间:2020-03-07 20:57:18    阅读次数:95
少用 string.Format
如果你使用的是 C 6.0 及其以上版本的话我建议你使用新增的 内插字符串 这个功能。这个功能可以更好的帮助开发人员设置字符串格式。下面我们就来看一下为什么要少用 string.Format 而要多用内插字符串,以及内插字符串的优缺点。 String.Format 在 C 6.0 以前我们会经常用到 ...
分类:其他好文   时间:2020-03-01 14:02:50    阅读次数:62
264条   上一页 1 2 3 4 5 6 ... 27 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!