码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
Spark SQL实现日志离线批处理
一、 基本的离线数据处理架构: 数据采集 Flume:Web日志写入到HDFS 数据清洗 脏数据 Spark、Hive、MR等计算框架来完成。 清洗完之后再放回HDFS 数据处理 按照需要,进行业务的统计和分析。 也通过计算框架完成 处理结果入库 存放到RDBMS、NoSQL中 数据可视化 通过图形 ...
分类:数据库   时间:2018-06-15 00:02:22    阅读次数:386
中文情感分析 glove+LSTM
最近尝试了一下中文的情感分析。 主要使用了Glove和LSTM。语料数据集采用的是中文酒店评价语料 1、首先是训练Glove,获得词向量(这里是用的300d)。这一步使用的是jieba分词和中文维基。 2、将中文酒店评价语料进行清洗,并分词。分词后转化为词向量的表示形式。 3、使用LSTM网络进行训 ...
分类:其他好文   时间:2018-06-14 18:28:20    阅读次数:889
数据仓库 - 2.数据仓库设计思路及ETL设计思路
一、数据仓库构建思想 构造数据仓库有两种方式:一是自上而下,一是自下而上。 Bill Inmon先生推崇“自上而下”的方式,即一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。要建立这样的数据仓库,并不从它需要支持哪些应用入手,而 ...
分类:其他好文   时间:2018-06-14 01:17:59    阅读次数:191
太平洋保险家园大数据项目DSG应用(30多个Oracle等实时同步到KAFKA)
根据太保家园项目的最终目标,在一期建设中,需要将太平洋保险集团下属的寿险,产险,车险等30多个核心系统数据,通过实时同步复制的方式,统一集中到大数据平台。其中涉及数据的转换,标化,清洗,去重等一系列过程,具体需求如下: 1、 需要将核心数据从30多个系统同步到大数据平台的kafka组件。 2、 确保数据复制的实时性(秒级)和数据的准确性 3、 复制的数据需要加上时间,操作类型等标签,便于后端应用识别 4、 以生产环境的dg库作为数据的汇聚源端,减轻对生产库的影响 5、 入kafka的数据格式可灵活配置,以便更好的适配后端应用 6、 需要具备数据操作统计和数据比对功能,便于核对数据的准确性
分类:数据库   时间:2018-06-13 15:14:53    阅读次数:1371
pandas基础命令速查表
pandas基础命令速查表 数据的导入 数据的导出 创建测试对象 数据的查看与检查 数据的选取 数据的清洗 数据的过滤(filter)排序(sort)和分组(group) 数据的连接(join)与组合(combine) 一、数据的导入 pd.read_csv(filename) 导入csv格式文件中 ...
分类:其他好文   时间:2018-06-10 20:14:45    阅读次数:226
(二)数据预处理
数据清洗 数值缺失 1.略去该组数据 2.数值填充:1)随机数;2)统一的全局常量,如:UNKNOWN;3)均值、中值;4)按类别的中值、均值;5)回归、决策树等得到的预测值; 噪声数据的平滑:随机噪声或偏差引起噪声 1.装箱法:按邻值实现 2.拟合回归函数以平滑数据 3.异常数据分析:在聚合后簇外 ...
分类:其他好文   时间:2018-06-06 12:24:21    阅读次数:154
第三周:Excel
一、Excel的常见函数: 1、文本清洗函数: ...
分类:其他好文   时间:2018-06-05 11:36:40    阅读次数:125
特征工程之特征预处理
在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体 ...
分类:其他好文   时间:2018-05-26 21:26:57    阅读次数:163
2018平安产险数据建模大赛 驾驶行为预测驾驶风险中遇到的问题及解决方案
1、数据需要清洗注意在读取csv格式文件之后需要对空值进行补全类似如下代码:2、特征工程此处选取以下几个指标作为分类和回归的特征3、深度模型失效通过日志发现正样本即Y>0的样本所占比例在14%左右,深度分类模型可能将所有的数据分为Y=0导致没有数据进行回归所以此处采用传统方法使用SVM方法和决策树进行分类进过测试发现SVM效果较好4、正样本过少考虑将回归模型改为广义线性回归放弃深度模型
分类:其他好文   时间:2018-05-25 16:52:07    阅读次数:563
6 DataFrame处理丢失数据--数据清洗
处理丢失数据 有两种丢失数据: · None · np.nan(NaN) 1 None None是Python自带的,其类型为Python object。因此,None不能参与到任何计算中。 object类型的运算要比int类型的运算慢得多 计算不同数据类型求和时间 2 np.nan(NaN) np ...
分类:其他好文   时间:2018-05-23 17:08:15    阅读次数:979
781条   上一页 1 ... 38 39 40 41 42 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!