码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
Azkaban 简介
一、Azkaban 介绍 1.1 背景 一个完整的大数据分析系统,必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题: 如何定时调度某个任务? 如何在某个任务执行完成后再去执行另一个任务? 如何 ...
分类:其他好文   时间:2019-09-01 10:33:11    阅读次数:86
数据清洗框架Pandas入门
一、安装 1、使用pip安装 注意:如果下载速度非常慢或者下载失败(因为python的部分生态库不支持云加速,所以安装超时),则手动下载指定的文件,并手动安装如下: 访问此链接下载.whl文件: 使用命令在此文件的目录安装此文件: 安装pandas需要的依赖库有: 官方文档:https://pand ...
分类:其他好文   时间:2019-08-30 19:23:30    阅读次数:70
Tableau 基础
1、Tableau产品介绍 安装 Tableau Desktop 10.5.3、Tableau安装包2018.3 提出问题、理解数据、清洗数据、建立模型、数据可视化 2、Tableau和Execl对比 ...
分类:其他好文   时间:2019-08-27 23:01:51    阅读次数:82
20.采集项目流程篇之清洗数据绑定到hive表中
先启动hive 在mydb2这个数据库中创建表; 把清洗后的数据导入到刚刚创建的hive表中 ...
分类:其他好文   时间:2019-08-25 18:19:09    阅读次数:92
用pandas进行数据清洗(二)(Data Analysis Pandas Data Munging/Wrangling)
在《用pandas进行数据清洗(一)(Data Analysis Pandas Data Munging/Wrangling)》中,我们介绍了数据清洗经常用到的一些pandas命令。 接下来看看这份数据的具体清洗步骤: 1,查看数据的行列数: 数据一共有10行6列。 2,查看数据的数据类型: Tra ...
分类:其他好文   时间:2019-08-25 16:16:39    阅读次数:62
探索性数据分析(Exploratory Data Analysis,EDA)
探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等。 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别 ...
分类:其他好文   时间:2019-08-24 15:00:37    阅读次数:156
Python 标准库、第三方库
Python 标准库、第三方库 Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器 ...
分类:编程语言   时间:2019-08-23 10:49:32    阅读次数:126
数据分析师(Data Analyst),数据工程师(Data Engineer),数据科学家(Data Scientist)的区别
数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策。工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据进行分析),总结结论并提出建议。数据分析师通常从业务团队那里获取需要分析的具体问题,并提供相应的解决 ...
分类:其他好文   时间:2019-08-21 11:51:04    阅读次数:108
power BI-数据处理(跟power query几乎一样)
可以用power BI的客户端 1、数据清洗-删除空行 在power BI中选中任一单元格,右键--编辑查询--点击数据源上方的删除行-删除空行,即使当前数据源没有空行,也要执行一下删除空行的操作,因为后面的数据有可能存在空行。 2、删除重复项 在power BI中选中任一单元格,右键--编辑查询- ...
分类:其他好文   时间:2019-08-18 19:51:46    阅读次数:98
使用KFold进行训练集和验证集的拆分,使用准确率和召回率来挑选合适的阈值(threshold) 1.KFold(进行交叉验证) 2.np.logical_and(两bool数组都是正即为正) 3.np.logical_not(bool、)
1. k_fold = KFold(n_split, shuffle) 构造KFold的索引切割器 k_fold.split(indices) 对索引进行切割。 参数说明:n_split表示切割的份数,假设切割的份数为10,那么有9份是训练集有1份是测试集,shuffle是否进行清洗,indices ...
分类:编程语言   时间:2019-08-14 17:15:43    阅读次数:598
781条   上一页 1 ... 20 21 22 23 24 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!