码迷,mamicode.com
首页 >  
搜索关键字:数据清理    ( 130个结果
【Python】pandas基础
pandas基础 pandas:主要进行数据清理和数据分析 1、pandas数据结构 1.1 Series 1.1.1 Series可以是一种一维 数组型对象 。 包含一个值序列,并且包含数据标签,称为索引(index)。 + 创建Series 创建Series,不指定索引或指定索引 obj = p ...
分类:编程语言   时间:2020-02-29 13:17:53    阅读次数:81
数据挖掘概念与技术
3.数据预处理: 在现实社会中的数据往往存在噪声数据、缺失值和不一致数据的问题。为了提高数据挖掘工作的效率和准确性,需要使用数据清理、数据集成、数据归约和数据变换等方法对数据进行预处理操作。 数据质量的三个要素是:准确性、完整性和一致性。 3.1 数据清理 数据清理试图填充缺失值、光滑噪声并识别离群 ...
分类:其他好文   时间:2020-02-26 01:19:33    阅读次数:75
使用Python脚本进行es数据清理
需求背景业务系统将各类的报表和统计数据存放于ES中,由于历史原因,系统每天均以全量方式进行统计,随着时间的推移,ES的数据存储空间压力巨大。同时由于没有规划好es的索引使用,个别索引甚至出现超过最大文档数限制的问题,因此我们需要最小的代价来解决这个问题。下面以内网开发、测试环境举例使用python脚本解决这个问题。EachElasticsearchshardisaLuceneindex.There
分类:编程语言   时间:2020-02-21 18:33:04    阅读次数:275
Redis 的数据清理
数据平台中有使用 Redis 来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于Redis自动清理的速 ...
分类:其他好文   时间:2020-02-05 23:11:35    阅读次数:102
jupyter快捷键使用
Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 ...
分类:其他好文   时间:2020-01-14 20:27:58    阅读次数:196
python第九章,计算生态概念
1,从数据处理到人工智能。 数据表示 ->数据清洗->数据统计->数据可视化->数据挖掘->人工智能 数据表示:采用合适方式用程序表达数据。 数据清理:数据归一化,数据转换,异常值处理。 数据统计:数据的概要理解,数量。分布。中位数等。 数据可视化:直观展示数据内涵的方式。 数据挖掘:从数据分析获得 ...
分类:编程语言   时间:2020-01-10 20:03:04    阅读次数:117
维度建模
ODS:数据 来源 : 一部分是来自关系型数据库,符合ER模型 。一部分来自日志 ,清洗成二维表 DWD: 把所有的数据清理整合 ,规范化 。脏数据清理 ,命名不规范的。最后拿到的是干净的 ,一致性的数据 。 把公共维度抽取出来,如区域 DWS: 维度建模,通用的汇总层 ,为了避免重复计算。 DM: ...
分类:其他好文   时间:2019-12-30 09:31:43    阅读次数:212
一些陈旧的注册表垃圾清理脚本:注册表冗余数据清理.reg
Windows Registry Editor Version 5.00 ;资源管理器操作历史记录(文件搜索) [-HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Explorer Bars] [-HKEY_CURRENT_USER\So... ...
分类:其他好文   时间:2019-12-25 12:54:47    阅读次数:278
3、Python的IDE之Jupyter的使用
一、Jupyter介绍Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。Jupyter Notebook 也是一个算法工程师友好的工具,但仍有... ...
分类:编程语言   时间:2019-12-12 18:25:32    阅读次数:134
业务领域建模Domain Modeling
工程实践题目: 面向租房的搜索引擎设计 1 类和方法 用户: 属性:id、密码、权限、收藏记录 方法:信息搜索、条件检索、登录、注册、注销、收藏租房信息 管理员: 属性:id、密码、权限 方法:爬取数据、创建数据、删除数据、清理数据、更新数据 2 类图 ...
分类:其他好文   时间:2019-11-23 21:41:43    阅读次数:75
130条   上一页 1 2 3 4 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!