移动平均可以使时间序列变平滑,是典型的有序计算问题,其基本算法是:将N个连续的时间序列成员作为一个集合,计算该集合的平均值,并逐项推移该集合。下面用一个例子来说明R计算移动平均的方法。
案例描述:
数据框sales有两个字段:日期和当日销售额,需要计算三日移动平均值。具体算法是:求出前一日、当日、后一日的销售额平均值,并逐日推移。部分源数据如下:
代码:
filter(sales$Amount/3, rep(1, 3))
计算结果:
代码解读:
R语言可以用函数filter计算移动平均值,代码简短,非常方便。
函数filter虽然很方便,但初学者却不易理解。比如sales$Amount/3的本意是将Amount字段中的当前值除以3,但用在filter函数里却能将前后三个值相加再除以三。表达式rep(1,3)的值为[1,1,1],用在这里却能指定取数范围。另外,filter的函数名和参数名中既没有“平均”,也没有“移动”,许多R语言开发者都不知道它可以用来计算移动平均值。
事实上,函数filter是个通用的线性过滤器,它的作用不止计算移动平均值这么简单。其完整的函数说明如下:filter(x, filter, method= c("convolution", "recursive"),sides = 2,circular = FALSE, init)。
如果想改动一下算法,代码就会更难理解,比如要计算当日、前一日、前两日这三天的移动平均值,不能写成:filter(sales$Amount/3,rep(0,2)),而应该是filter(sales$Amount/3,rep(1,3), sides = 1)。
总结: R语言可以计算移动平均值,但代码难理解。
第三方解决方案
本案例也可以用Python、集算器、Perl等语言来实现。和R语言一样,这几种语言都可以进行数据的统计分析,都可以计算移动平均值,下面简单介绍Python和集算器的解决方案。
Python(pandas)
Pandas是Python的第三方库函数,其基本数据类型仿照R中的数据框,具有很强的结构化数据处理能力,目前最新版本是0.14。代码如下:
pandas.stats.moments.rolling_mean(sales["Amount"],3)
rolling_mean这个函数名一目了然,即使刚接触pandas的开发者也能轻易查到这个函数,rolling_mean的用法也很简洁,第一个参数是被计算的序列,第二个参数是N日移动平均值中的N。
集算器
集算器擅长以敏捷语法自由表达业务逻辑,其相对位置表达式可以方便地解决有序计算中的难题。代码所示:
sales.(Amount{-1,1}.avg())
代码中的{-1,1}表示相对区间,即前一日和后一日之间的三天。可以看到,使用相对区间可以直观地计算移动平均值,而且更加灵活。比如同样改动算法:计算当日、前一日、前两日这三天的移动平均值,集算器只需将区间改为{-2,0}。
相对区间是个集合,集算器还可以表达相对位置的元素,比如销售增长额可以用sales(Amount -Amount[-1])来直观计算,而R语言和Python就没这么好理解。
原文地址:http://esproc.blog.51cto.com/8028595/1563155