【背景】
由源端抽取数据时,姓名中文为唯一字段,落地到目标端时,由于业务需要,需要有单独的姓氏字段和姓名字段,则需要利用长度判读函数、截取函数处理。【解决】
1、长度判读利用case、length函数;
2、截取函数利用substr函数。【实验】
1、构造源端实验表create table yuduan
(
english_name varchar2(100),
chinese_name...
分类:
其他好文 时间:
2015-12-28 17:03:59
阅读次数:
196
大数据算法的摘抄预处理抽取清洗分析方法聚合:聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。分类:分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,...
分类:
编程语言 时间:
2015-12-28 11:57:54
阅读次数:
198
背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序...
分类:
其他好文 时间:
2015-12-27 06:19:37
阅读次数:
243
一:背景TopK问题应该是海量数据处理中应用最广泛的了,比如在海量日志数据处理中,对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难,我们完全可以利用MapReduce的Shuffle过程实现排序,然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序,不...
分类:
其他好文 时间:
2015-12-15 14:08:01
阅读次数:
216
数据库,数据清洗问题叙述性说明:在系统我用在,因为历史和由于各种原因,原因记录的数据内的数据库表,有一个问题,有反复和不完整的数据解:首先。由于数据量还是挺大的,工的清理肯定不行,然后,我就想写SQL脚本来依照约定的规则进行更新,能够利用游标来完毕表中的记录的遍历,可是SQL是面向结构化的查询语言,...
分类:
数据库 时间:
2015-12-14 21:03:43
阅读次数:
271
importxlrd
importpandasaspd
importnumpyasnp
data=xlrd.open_workbook(‘D:\\Data\\basket.xlsx‘)
table=data.sheets()[0]
nrows=table.nrows
ncols=table.ncols
j=2
foriinnrows:
iftable.cell(i,0).value!=table.cell(i+1,0).value:
li(i,j)=table.cell(i,0)
li[i,..
分类:
其他好文 时间:
2015-11-24 06:24:02
阅读次数:
130
震荡市如何飞身换马: 首先,对于基本面较差的长期熊股要坚决清洗出局,没有经过技术培训的股民长期存在瞎买瞎卖,公司做什么的是不是亏损股甚至要退市的都不知道,如果手里持有的是连续两年亏损或者被证监会立案、强烈谴责提示风险的都要坚决回避! 其次,避免在同一板块中换股,比如你持有的是石油股,你换的也是石.....
分类:
其他好文 时间:
2015-11-22 23:16:46
阅读次数:
210
#!/bin/shzcatwww_access_log.2013-12-31.gz|awk-F"\""‘BEGIN{OFS="@"#输出字段之间的分隔符,用别的也可以}{ip=""ips=""logtime=""if(match($1,/([^-]+[0-9]|-)[^]+([^]+)?\[[^:]+:([^]+)/,f)){ip=f[1]logtime="2013-12-30"f[3]}ip=ip=="-"?"":ipif(length(ip)>15){#ips=ip..
分类:
Web程序 时间:
2015-11-05 00:54:43
阅读次数:
265
破窗效应-谁在打破第一扇窗户?社会学家JamesQ.Wilson和GeorgeL.Kelling在《BrokenWindows》中指出:“一个房子如果窗户破了,没有人去修补,隔不久,其它的窗户也会莫名其妙地被人打破;一面墙,如果出现一些涂鸦没有被清洗掉,很快的,墙上就布满了乱七 八糟、不堪入目的东西...
分类:
其他好文 时间:
2015-11-04 17:42:48
阅读次数:
259
题目描述 John的农场在给奶牛挤奶前有很多杂务要完成,每一项杂务都需要一定的时间来完成它。比如:他们要将奶牛集合起来,将他们赶进牛棚,为奶牛清洗乳房以及一些其它工作。尽早将所有杂务完成是必要的,因为这样才有更多时间挤出更多的牛奶。当然,有些杂务必须在另一些杂务完成的情况下才能进行。比如:只有将奶....
分类:
其他好文 时间:
2015-10-25 12:13:33
阅读次数:
209