importxlrd
importpandasaspd
importnumpyasnp
data=xlrd.open_workbook(‘D:\\Data\\basket.xlsx‘)
table=data.sheets()[0]
nrows=table.nrows
ncols=table.ncols
j=2
foriinnrows:
iftable.cell(i,0).value!=table.cell(i+1,0).value:
li(i,j)=table.cell(i,0)
li[i,..
分类:
其他好文 时间:
2015-11-24 06:24:02
阅读次数:
130
【背景】
利用kettle工具,完成某表的增量工作。
【解决】
利用模块完成即可,如下简图:
【实验】
先手工准备一个实验环境:
准备基本完成如下效果:
select t.*, t.rowid from EMP_ETL t
select max(hiredate) maxsj from EMP_ETL
我们验证将2015年10月22日的数据插入目标表中。
创建目标表:...
分类:
其他好文 时间:
2015-10-22 06:47:54
阅读次数:
280
监控平台当前使用storm对日志进行流式分析计算,用于支撑监控数据清洗,后来逐渐在storm上搭建起数据在线关联,数据离线关联,明细数据清洗,日志搜索等功能,本章节对各功能进行简要概述。对storm不熟悉的话,建议先阅读相关文献:http://ifeve.com/getting-started-wi...
分类:
其他好文 时间:
2015-09-06 14:41:02
阅读次数:
154
任务 根据数据仓库中某一个构建模板" Java信用卡前台组件A"列表的数据对构建时长进行数据统计 解决步骤 数据清洗->数据抽样->正态拟合 数据清洗 进行数据拟合去掉最大值,和最小值。 随机抽样 随机抽取300条数据。 图 1. 抽样对话框 正态拟合 300条数据的正态拟合如下: 图 2. 正态拟...
分类:
其他好文 时间:
2015-09-04 07:07:50
阅读次数:
167
批量文件检查?
for?id?in?`seq?0?9`
do
./check2.sh?epg_201506270$id.dat
done
for?id?in?`seq?10?23`
do
./check2.sh?epg_20150627$id.dat
done for?id?in?`seq?0??9`
do
./filter.sh?epg...
分类:
其他好文 时间:
2015-09-03 19:15:16
阅读次数:
368
机器学习漫谈
数据挖掘/机器学习项目一般包括四个关键部分,分别是,数据分析,特征工程,建立模型,验证。
1 数据分析
从广义上讲,数据分析包括数据收集,数据处理,数据清洗,探究性数据分析,建模和算法设计,数据可视化等等[1]。从狭义上讲,数据分析指的是探究性数据分析(EDA)。
所谓探索性数据分析(ExploratoryD...
分类:
其他好文 时间:
2015-08-12 21:53:11
阅读次数:
263
在数据清洗,评估 ,抽验等等过程中,经常有这样的应用场景 : 需要在一个大的数据集合中随机出来样本,进行人工评估。为了保证足够随机,借助脚本来实现。下面一个脚本 ,用于应对这种应用场景。使用方法: python random_select_line.py -h建议:自定义 alias random....
分类:
编程语言 时间:
2015-08-08 14:47:58
阅读次数:
137
关于人肉工程,包括业务知识、领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典型的有苦逼的数据清洗、人肉特征工程等。大家都想把尽可能多的过程由机器自动完成,但是目前的状态是,大部分机器学习问题中,最困难也最重要的部分,还是依靠人的经验来生成特征。那么人的经验为什么重要,能否用机...
分类:
其他好文 时间:
2015-07-29 10:13:07
阅读次数:
122
本文参考:http://scikit-learn.org/stable/data_transforms.html
本篇主要讲数据预处理,包括四部分:
数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自定义特征。哇哈哈,还是关注预处理比较靠谱。。。。
重要的不翻译:scikit-learn provides
a library of transformers, whi...
分类:
其他好文 时间:
2015-07-17 10:09:01
阅读次数:
145
目前很多公司的架构,从Struts2迁移到了SpringMVC。你有想过为什么不使用Servlet+JSP来构建Java web项目,而是采用SpringMVC呢?既然这样,我们从源头说起。Struts2的源头其实也是Servlet。Servlet的作用是接收浏览器传给服务端的请求(request)...
分类:
编程语言 时间:
2015-07-13 18:24:44
阅读次数:
171