搜索关键字：清洗，搜索到781个结果！码迷,mamicode.com！

Spark SQL实现日志离线批处理

一、基本的离线数据处理架构：数据采集 Flume：Web日志写入到HDFS 数据清洗脏数据 Spark、Hive、MR等计算框架来完成。清洗完之后再放回HDFS 数据处理按照需要，进行业务的统计和分析。也通过计算框架完成处理结果入库存放到RDBMS、NoSQL中数据可视化通过图形 ...

分类：数据库时间：2018-06-15 00:02:22 阅读次数：386

中文情感分析 glove+LSTM

最近尝试了一下中文的情感分析。主要使用了Glove和LSTM。语料数据集采用的是中文酒店评价语料 1、首先是训练Glove，获得词向量（这里是用的300d）。这一步使用的是jieba分词和中文维基。 2、将中文酒店评价语料进行清洗，并分词。分词后转化为词向量的表示形式。 3、使用LSTM网络进行训 ...

分类：其他好文时间：2018-06-14 18:28:20 阅读次数：889

数据仓库 - 2.数据仓库设计思路及ETL设计思路

一、数据仓库构建思想构造数据仓库有两种方式：一是自上而下，一是自下而上。 Bill Inmon先生推崇“自上而下”的方式，即一个企业建立唯一的数据中心，就像一个数据的仓库，其中数据是经过整合、经过清洗、去掉脏数据的、标准的，能够提供统一的视图。要建立这样的数据仓库，并不从它需要支持哪些应用入手，而 ...

分类：其他好文时间：2018-06-14 01:17:59 阅读次数：191

太平洋保险家园大数据项目DSG应用（30多个Oracle等实时同步到KAFKA）

根据太保家园项目的最终目标，在一期建设中，需要将太平洋保险集团下属的寿险，产险，车险等30多个核心系统数据，通过实时同步复制的方式，统一集中到大数据平台。其中涉及数据的转换，标化，清洗，去重等一系列过程，具体需求如下： 1、需要将核心数据从30多个系统同步到大数据平台的kafka组件。 2、确保数据复制的实时性（秒级）和数据的准确性 3、复制的数据需要加上时间，操作类型等标签，便于后端应用识别 4、以生产环境的dg库作为数据的汇聚源端，减轻对生产库的影响 5、入kafka的数据格式可灵活配置，以便更好的适配后端应用 6、需要具备数据操作统计和数据比对功能，便于核对数据的准确性

分类：数据库时间：2018-06-13 15:14:53 阅读次数：1371

pandas基础命令速查表

pandas基础命令速查表数据的导入数据的导出创建测试对象数据的查看与检查数据的选取数据的清洗数据的过滤(filter)排序(sort)和分组(group) 数据的连接(join)与组合(combine) 一、数据的导入 pd.read_csv(filename) 导入csv格式文件中 ...

分类：其他好文时间：2018-06-10 20:14:45 阅读次数：226

（二）数据预处理

数据清洗数值缺失 1.略去该组数据 2.数值填充：1)随机数;2)统一的全局常量，如:UNKNOWN;3)均值、中值;4）按类别的中值、均值;5）回归、决策树等得到的预测值; 噪声数据的平滑：随机噪声或偏差引起噪声 1.装箱法：按邻值实现 2.拟合回归函数以平滑数据 3.异常数据分析：在聚合后簇外 ...

分类：其他好文时间：2018-06-06 12:24:21 阅读次数：154

第三周：Excel

一、Excel的常见函数： 1、文本清洗函数： ...

分类：其他好文时间：2018-06-05 11:36:40 阅读次数：125

特征工程之特征预处理

在前面我们分别讨论了特征工程中的特征选择与特征表达，本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化，异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化由于标准化和归一化这两个词经常混用，所以本文不再区别标准化和归一化，而通过具体的标准化和归一化方法来区别具体 ...

分类：其他好文时间：2018-05-26 21:26:57 阅读次数：163

2018平安产险数据建模大赛驾驶行为预测驾驶风险中遇到的问题及解决方案

1、数据需要清洗注意在读取csv格式文件之后需要对空值进行补全类似如下代码：2、特征工程此处选取以下几个指标作为分类和回归的特征3、深度模型失效通过日志发现正样本即Y>0的样本所占比例在14%左右，深度分类模型可能将所有的数据分为Y=0导致没有数据进行回归所以此处采用传统方法使用SVM方法和决策树进行分类进过测试发现SVM效果较好4、正样本过少考虑将回归模型改为广义线性回归放弃深度模型

分类：其他好文时间：2018-05-25 16:52:07 阅读次数：563

6 DataFrame处理丢失数据--数据清洗

处理丢失数据有两种丢失数据： · None · np.nan(NaN) 1 None None是Python自带的，其类型为Python object。因此，None不能参与到任何计算中。 object类型的运算要比int类型的运算慢得多计算不同数据类型求和时间 2 np.nan（NaN） np ...

分类：其他好文时间：2018-05-23 17:08:15 阅读次数：979

共781条上一页 1 ... 38 39 40 41 42 ... 79 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)