以下汇总了我用R写过的一些数据分析工程 不定时更新 [1] 主要涉及: 数据清洗,线性回归模型拟合,模型选择(R-squared, AIC等),树形方法(rpart(), xgboost()等) github中有详细介绍及全部代码:https://github.com/wojamesyegit/R- ...
分类:
其他好文 时间:
2020-05-30 21:33:25
阅读次数:
100
tidyverse library把data.frame拓展tibble、读取数据readr、清洗数据tidyr、文本处理stringr、加工数据dplyr、画图ggplot2等library打包在一起。读取数据readxl、时间处理lubridate另外加载。 The goal of tidyr ...
分类:
编程语言 时间:
2020-05-28 23:09:10
阅读次数:
113
方案概述数据迁移是数据系统整合中保证系统平滑升级和更新的关键部分。在信息化建设过程中,随着技术的发展,原有的系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的历史数据,其中许多历史数据都是新系统顺利启用所必须的。另外,这些历史数据也是进行决策分析的重要依据。数据迁移,就是将这些历史数据进行清洗、转换,并装载到新系统中的过程。银行、电信、税务、工商、保险等行业进行系统切换时,数据迁移的成功与
分类:
其他好文 时间:
2020-05-27 10:37:23
阅读次数:
88
一.重复值处理:直接删除为主。一般先处理重复行,再处理唯一值列。 以行为单位,查看重复值 df[df.duplicated()] 以行为单位,删除重复值 df.drop_duplicates() 以某列(如ID)为单位,查看重复值 df[df.duplicated('ID')] 以某列(如ID)为单 ...
分类:
其他好文 时间:
2020-05-26 12:03:52
阅读次数:
96
许多人实际上都对油烟机的清洗很不便,也有对抽油烟机的清洗的难题了解也不够,有的人就觉得油烟机就是说一个设备罢了,卸下来开展清洗可以了,假如洗不整洁得话,那就多洗几回就可以了。实际上真实掌握的人就会了解抽油烟机清洗还是算较为繁杂的事儿,就是说卸下来洗,也就得以令人晕头晕脑。下面小编就给大家说一下关于油 ...
分类:
其他好文 时间:
2020-05-25 17:40:18
阅读次数:
53
说明:数据清洗的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 已采集到日志数据存入web.log文件中,其中一条日志格式如下: 101.206.68.147 - - [18/Sep/2018:20:05:16 +0000] "HEAD / HTTP/1.2" 200 20 "-" ...
分类:
其他好文 时间:
2020-05-25 12:28:31
阅读次数:
61
日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据。 当我们着手准备收集数据时,面对低效的复制黏贴工作,一般都会萌生一个想法:我要是会爬虫就好了,分分钟就把数据爬取下来了。可是当我们搜索相关教程时,往往会被 ...
分类:
Web程序 时间:
2020-05-24 10:13:25
阅读次数:
143
数据清洗与格式转换 探索性数据分析 特征筛选 1.数据清洗与格式转换 通过pandas来导入csv:查看一下数据的基本情况,可以看到,整个数据集有3333条数据,21个维度,最后一列是分类 基本信息以及类型 我们可以看到 1.个人信息:州名、账号长度、区号、电话号码,这些个人信息对结果意义不大,删除 ...
分类:
其他好文 时间:
2020-05-22 10:08:31
阅读次数:
80
1、handling missing Data string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado']) string_data.isnull() string_data[0] = None #dropna filln ...
分类:
编程语言 时间:
2020-05-16 01:01:04
阅读次数:
115
1. like 与 regexp比较 like有的功能,regexp都有;regexp还能进行更精确的匹配 -- 模糊匹配两者完全等价 SELECT * FROM rp_dag_sdu_log where task_number like '%rp%'; SELECT * FROM rp_dag_s ...
分类:
数据库 时间:
2020-05-13 15:17:24
阅读次数:
82