码迷,mamicode.com
首页 >  
搜索关键字:数据脱敏 datamasker 数据漂白 数据清洗    ( 383个结果
数据清洗
importxlrd importpandasaspd importnumpyasnp data=xlrd.open_workbook(‘D:\\Data\\basket.xlsx‘) table=data.sheets()[0] nrows=table.nrows ncols=table.ncols j=2 foriinnrows: iftable.cell(i,0).value!=table.cell(i+1,0).value: li(i,j)=table.cell(i,0) li[i,..
分类:其他好文   时间:2015-11-24 06:24:02    阅读次数:130
数据清洗小记(11):Kettle_利用设置变量实现数据增量(小例)
【背景】 利用kettle工具,完成某表的增量工作。 【解决】 利用模块完成即可,如下简图: 【实验】 先手工准备一个实验环境: 准备基本完成如下效果: select t.*, t.rowid from EMP_ETL t select max(hiredate) maxsj from EMP_ETL 我们验证将2015年10月22日的数据插入目标表中。 创建目标表:...
分类:其他好文   时间:2015-10-22 06:47:54    阅读次数:280
嗷嗷嗷
监控平台当前使用storm对日志进行流式分析计算,用于支撑监控数据清洗,后来逐渐在storm上搭建起数据在线关联,数据离线关联,明细数据清洗,日志搜索等功能,本章节对各功能进行简要概述。对storm不熟悉的话,建议先阅读相关文献:http://ifeve.com/getting-started-wi...
分类:其他好文   时间:2015-09-06 14:41:02    阅读次数:154
持续构建_KPI_构建时长
任务 根据数据仓库中某一个构建模板" Java信用卡前台组件A"列表的数据对构建时长进行数据统计 解决步骤 数据清洗->数据抽样->正态拟合 数据清洗 进行数据拟合去掉最大值,和最小值。 随机抽样 随机抽取300条数据。 图 1. 抽样对话框 正态拟合 300条数据的正态拟合如下: 图 2. 正态拟...
分类:其他好文   时间:2015-09-04 07:07:50    阅读次数:167
EPG文件数据清洗
批量文件检查? for?id?in?`seq?0?9` do ./check2.sh?epg_201506270$id.dat done for?id?in?`seq?10?23` do ./check2.sh?epg_20150627$id.dat done for?id?in?`seq?0??9` do ./filter.sh?epg...
分类:其他好文   时间:2015-09-03 19:15:16    阅读次数:368
机器学习漫谈
机器学习漫谈             数据挖掘/机器学习项目一般包括四个关键部分,分别是,数据分析,特征工程,建立模型,验证。 1     数据分析          从广义上讲,数据分析包括数据收集,数据处理,数据清洗,探究性数据分析,建模和算法设计,数据可视化等等[1]。从狭义上讲,数据分析指的是探究性数据分析(EDA)。          所谓探索性数据分析(ExploratoryD...
分类:其他好文   时间:2015-08-12 21:53:11    阅读次数:263
python_random随机
在数据清洗,评估 ,抽验等等过程中,经常有这样的应用场景 : 需要在一个大的数据集合中随机出来样本,进行人工评估。为了保证足够随机,借助脚本来实现。下面一个脚本 ,用于应对这种应用场景。使用方法: python random_select_line.py -h建议:自定义 alias random....
分类:编程语言   时间:2015-08-08 14:47:58    阅读次数:137
人肉工程在机器学习实践中的作用
关于人肉工程,包括业务知识、领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典型的有苦逼的数据清洗、人肉特征工程等。大家都想把尽可能多的过程由机器自动完成,但是目前的状态是,大部分机器学习问题中,最困难也最重要的部分,还是依靠人的经验来生成特征。那么人的经验为什么重要,能否用机...
分类:其他好文   时间:2015-07-29 10:13:07    阅读次数:122
scikit-learn:数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)
本文参考:http://scikit-learn.org/stable/data_transforms.html 本篇主要讲数据预处理,包括四部分: 数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自定义特征。哇哈哈,还是关注预处理比较靠谱。。。。 重要的不翻译:scikit-learn provides a library of transformers, whi...
分类:其他好文   时间:2015-07-17 10:09:01    阅读次数:145
Spring的历史论(数据脱敏)
目前很多公司的架构,从Struts2迁移到了SpringMVC。你有想过为什么不使用Servlet+JSP来构建Java web项目,而是采用SpringMVC呢?既然这样,我们从源头说起。Struts2的源头其实也是Servlet。Servlet的作用是接收浏览器传给服务端的请求(request)...
分类:编程语言   时间:2015-07-13 18:24:44    阅读次数:171
383条   上一页 1 ... 33 34 35 36 37 ... 39 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!