码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
使用KFold进行训练集和验证集的拆分,使用准确率和召回率来挑选合适的阈值(threshold) 1.KFold(进行交叉验证) 2.np.logical_and(两bool数组都是正即为正) 3.np.logical_not(bool数组为正即为反,为反即为正)
恢复内容开始 1. k_fold = KFold(n_split, shuffle) 构造KFold的索引切割器 k_fold.split(indices) 对索引进行切割。 参数说明:n_split表示切割的份数,假设切割的份数为10,那么有9份是训练集有1份是测试集,shuffle是否进行清洗, ...
分类:编程语言   时间:2019-08-14 17:10:38    阅读次数:360
数据分析-拉勾网数据分析职位分析
数据分析的一般步骤为:提出问题、理解数据(数据获取)、数据清洗、构建模型、数据可视化和结果展示。 一、提出问题 1、深圳市数据分析岗位的薪水如何?工作经验要求如何? 2、深圳市数据分析岗位的薪水和工作经验要求有何关系? 3、深圳市从事哪些数据分析岗位最好? 4、根据自己的实际情况,哪些公司的数据分析 ...
分类:其他好文   时间:2019-08-13 15:47:54    阅读次数:147
Jsoup+HttpUnit爬取搜狐新闻
怎么说呢,静态的页面,但我也写了动态的接口支持,方便后续爬取别的新闻网站使用。 之后就是爬虫; 结果: 当然还没有清洗内容,后续会清洗以及爬取动态网站啥的。 参考博客:https://blog.csdn.net/gx304419380/article/details/80619043#comment ...
分类:Web程序   时间:2019-08-09 19:43:58    阅读次数:197
大数据以及大数据技术都包括哪些内容
大数据经过多年的发展,目前在概念上已经有了更多的含义,从不同的角度来看待大数据也会有不同的定义,但是总的来说,大数据可以用三个方面来进行概括,其一是“新的价值领域”;其二是“数据价值化”;其三是“产业互联网的基础”。大数据之所以受到了广泛的关注,一个重要的原因就是大数据开辟了新的价值领域,这一点是非常关键的。新的价值领域就会打造一系列生态体系,而生态体系又会孕育出大量不同的商业模式,而这个过程也会
分类:其他好文   时间:2019-08-09 11:48:34    阅读次数:139
「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!
本文主要讲数据治理中的重要工作:数据质量管理。从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。
分类:其他好文   时间:2019-08-07 16:14:09    阅读次数:112
Hive 和 HBase 区别
Hive 数据仓库,Hive 的本质其实就相当于将 HDFS 中已经存储的文件在Mysql中做了一个双射关系,以方便使用 HQL 去管理查询 用于数据分析、清洗,Hive 适用于离线的数据分析和清洗,延迟较高 基于 HDFS、MapReduce,Hive存储的数据依旧在DataNode上,编写的 H ...
分类:其他好文   时间:2019-08-05 14:23:06    阅读次数:90
如何才能让数仓构建成本降低80%,维护成本降低70%?
构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。 通常数据抽取工作分抽取、清洗、转换、 ...
分类:其他好文   时间:2019-08-05 13:47:31    阅读次数:144
csv文件数据清洗
一、需求: 对爬取的csv文件进行数据清洗 运用内容:pandas、正则表达式 二、简单分析: 共176条数据 其中,分析目标以全职为准,但职位名称包含实习信息,需要删除掉。 数据方面:csv保存格式为str,运用正则表达式提取数值工作经验去平均值,工资按市场情况,取工资范围前25%。 三、代码: ...
分类:其他好文   时间:2019-08-04 13:41:02    阅读次数:84
1-2人工智能与机器学习
机器学习是一门交叉学科 机器学习和很多名词相关 ,包括: 模式识别, 数据清洗,数据挖掘,统计学习,计算机视觉,语音识别 , 深度学习 模式识别,机器学习也是模式学习,只是换了个说法,机器学习把各种各样的场景当成各种模式,把模式识别出来,相当于总结模式的规律 数据挖掘, 很多时候是和数据库的知识,然 ...
分类:其他好文   时间:2019-08-04 01:24:12    阅读次数:93
数据预处理之清洗
''' 数据的清洗 1.检测与处理重复值 2.检测与处理缺失值 3.检测与处理异常值 ''' import numpy as np import pandas as pd # 去重:按照A列去重,同时保留第一个数据且在原表去重 data = pd.DataFrame({'A': [1, 1, 2, ... ...
分类:其他好文   时间:2019-08-02 09:21:55    阅读次数:101
781条   上一页 1 ... 21 22 23 24 25 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!