码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
Python标准库、第三方库和外部工具汇总
导读:Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。 这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器学习/深度学习、数据可视 ...
分类:编程语言   时间:2019-08-02 00:01:50    阅读次数:128
Pandas常用的数据清洗方法
df.duplicated( ).any( ) #判断数据集中是否有重复值df.drop_duplicates( inplace=True ) df.duplicated().any() # 判断数据集中是否有重复值 df.drop_duplicates(inplace=True) #删除重复值,i... ...
分类:其他好文   时间:2019-07-20 23:03:51    阅读次数:83
机器学习算法的随机数据生成
在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟合和预测。... ...
分类:编程语言   时间:2019-07-19 19:04:43    阅读次数:90
机器学习1
机器学习主要由监督学习、无监督学习。 监督学习主要用于解决分类和回归问题。 无监督学习主要用于解决聚类问题。 在机器学习过程中主要有以下几个步骤: 数据预处理 特征工程 数据建模 结果评估 首先介绍数据预处理,主要包括数据清洗、数据采样以及数据集的拆分三个部分。 在数据清洗过程中主要对各种脏数据进行 ...
分类:其他好文   时间:2019-07-05 00:38:17    阅读次数:170
数据仓库模型ETL架构(DWI/DWR/DM)
1.DWI DWI:数据湖、数据砥柱,一般存放在HDFS 数据仓库的基础数据来源,各种杂七杂八的数据 关键点:数据清洗、数据整合、异常处理、增量获取 ETL:E-数据抽取、数据清洁、格式转换,T-生成代理键ID、遵循三范式,L-数据加载 2.DWR DWR:数据仓库的中间层,星型结构 根据业务划分: ...
分类:其他好文   时间:2019-07-03 00:28:13    阅读次数:481
爬虫之数据解析,网页源码数据分析
数据解析,就是对网页源码数据的解析和清洗,获取自己想要的数据信息。 常用的数据解析有下面四种: 1.正则 2.bs4 3.xpath 4.pyquery 一: 正则:熟练使用正则表达式,对数据进行提取即可 二:BS4 解析原理: 1.实例化一个BeautifulSoup的一个对象,并且将即将被解析的 ...
分类:Web程序   时间:2019-06-30 12:35:40    阅读次数:159
第2节 网站点击流项目(下):2、明细宽表的生成
1. 本项目中数据仓库的设计 注:采用星型模型 1.1. 事实表设计 原始数据表: ods_weblog_origin =>对应mr清洗完之后的数据 valid string 是否有效 remote_addr string 访客ip remote_user string 访客用户信息 time_lo ...
分类:Web程序   时间:2019-06-29 10:31:18    阅读次数:193
form组件
from组件 form组件的功能 生产input标签 对提交的数据可以进行校验 提供错误提示 定义form组件 使用 视图 模板 常用字段 字段参数 验证 写函数 2.使用内置的校验器 局部钩子 全局钩子 is_valid的流程: 1.执行full_clean()的方法: 定义错误字典 定义存放清洗 ...
分类:其他好文   时间:2019-06-28 16:37:33    阅读次数:89
武林外传可视化
获取到数据之后,首先对用户location做可视化 第一步 做数据清洗,把里面的数据中文符号全部转为为空格 第二步 数据做词云,需要过滤停用词,然后分词 输入结果 这样输出的原因是后面需要用pyechart做数据的词云 第三步 词云可视化 二 用户地址可视化 用户所在地成都热点图 程序脚本:这里需要 ...
分类:其他好文   时间:2019-06-19 15:12:29    阅读次数:122
简易数据分析 | 开启数据采集之路
这是简易数据分析系列的第 1 篇文章。 前文说到,我会做一个数据分析的系列教程,面向纯小白,不写代码不写公式,搞定数据分析的第一步。教程的内容主要会从三个方向上进行延伸:数据采集,数据清洗和数据可视化。 今天我们就开始我们的数据采集之路。 数据采集听着高大上,其实对于普通人来说,就是 自动化版的复制 ...
分类:其他好文   时间:2019-06-18 23:00:13    阅读次数:287
781条   上一页 1 ... 22 23 24 25 26 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!