【MIG专项测试组】如何准确评测Android应用的流畅度？

时间：2015-06-29 16:09:25 阅读：306 评论：0 收藏：0 [点我收藏+]

标签：

转自腾讯Bugly

叶方正，2008年加入腾讯，就职于无线研发部【专项测试组】。曾经负责多个产品的性能优化工作，积累大量的移动终端平台优化以及评测经验。

怎样获取SM值？

前文我们分析了通过测量应用的帧率FPS并不能准确评价App的流畅度（如何量化Android应用的“卡”？流畅度原理&定义篇），FPS较低并不能代表当前App在UI上界面不流畅，而1s内VSync这个Loop运行了多少次更加能说明当前App的流畅程度。

那么我们可以直接在App代码中通过Choreographer的回调FrameCallback来计算Loop被运行了几次，从而知道应用的流畅度。但在实际情况下我们不一定能修改代码（实际发布的版本不允许加入测试代码）或者根本拿不到代码（譬如和竞品进行对比）。

今天我们介绍一种更简单直观测量Android应用流畅度的方法，就是通过开源测试工具GT（http://gt.qq.com）。

1、先启动要测试的应用。

2、启动GT，在插件中选择GT Injector，再选择被测进程，点击“射它”。

技术分享

技术分享
3、点击后，Para界面会出现流畅度指标以及被插入程序的CPU占有率，并且会带上被插入的进程名。将流畅度后面小方框勾选（表示需要记录SM值到log文件），然后点击右个角“Gather & Warning”下小红圈（表示开始记录数值）。

技术分享
4、启动App，开始做相关的测试。

5、完成测试后，在GT界面点击流畅度(SM)，则会出现已经记录的SM值图表，点击右上角磁盘图标，保存log到指定名字的文件夹。

技术分享
6、最后利用工具（比如应用宝），把log导入到PC端进行后期处理（一般情况下，文件保存路径在：SD卡/GT/GW/进程名/自定义文件夹）。

温馨提醒：以上的操作因为涉及到进程注入需要手机Root权限，如有问题，可以加GT交流群咨询（QQ群号：145535035）。

SM测试效果如何？

我们已经收集了SM的测试数据，但测试数据是否准确？我们拿一些浏览器产品为例子，来评测下SM的数据和人的感受是否对应得上。

首先，我们为了把感官和人的感受对应上，特把主动感官分数对应到以下几种描述。

流畅度主观评分	描述
4~5	界面滑动流畅并且能够快速响应用户输入(各种操作)
3~4	界面滑动顿挫感并且能够及时响应用户输入(各种操作)
2~3	界面滑动明显顿挫感响应用户输入(各种操作)有种慢半拍的感觉
1~2	界面滑动明显画面跳跃感响应用户输入(各种操作)有严重的延迟
0~1	不能动了

1、先看看流畅度(SM)和丢帧(SF)之间的关系

测试场景：浏览器看妹子图

评测手机：Nexus 4

流畅度主观评分(总体)：2.5（界面滑动明显顿挫感，响应用户输入有种慢半拍的感觉）

技术分享
因为丢帧是个不连续的过程，所以图中的丢帧都是以点来表示其离散的状态。从上面图表可以看出：

丢帧(SF)越多，流畅度(SM)越低。
26:16~26:42之间的流畅度很低，并且丢帧最密集。

再整体梳理一下这期间流畅度、丢帧和主观评分的数据：

主观评分	流畅度均值	丢帧均值
2.50	25.26	34.15

从这个数据可以看到，丢帧(SF)越多流畅度(SM)越低，并且主观感觉比较卡，这个关系是成立的。

2、再引入FPS看看三者关系

测试场景：浏览器看妹子图

评测手机：Nexus 4

流畅度主观评分(总体)：2.5

这次测试引入了FPS数据，从图表中可以看出:

FPS曲线和SM曲线差不多，而且同样受丢帧的影响。
有段比较奇怪的地方：流畅度很高，但FPS比较低，无丢帧情况，将这段数据放大来看：

技术分享

检查这个时段的测试场景：静置在某个界面没有动，主观评分在4.5左右。

再整体梳理一下这个时间段FPS、流畅度、丢帧和主观的数据：

主观分	流畅度均值	丢帧均值	FPS均值
4.5	58.375	0.5	16.333

可以看出，流畅度SM会比FPS更加适合客观描述App卡的程度。

如何有效利用SM值判断App流畅度？

确定了使用SM值来评估手机App的流畅度后，我们会开始进行一个产品在不同场景，以及多个产品间在相同场景下的测试对比。场景太多，测试数据巨大，该如何有效使用SM测试结果去判断App流畅情况？

1、一些思路

不能直接用平均值和方差

根据以往经验，通过平均值，方差等一些指标，并不好说明问题。如果卡顿时间出现较短，测试时间较长，则平均值和方差这种指标不容易发现问题，但是又确实有卡顿。平均值和方差适合描述服从正态分布的随机变量，但是测试得到的SM值并不是这样的随机变量。

将测试结果按卡顿和流畅分段，对每个卡顿区间段打分

之前参考了一篇游戏流畅度评分的文章，该文章结合FPS平均值和卡顿的程度以及频率，对游戏整体流畅度打分。但是普通App和游戏的区别比较大。对普通App来说，用户不是一直在操作，而且不同的操作差异也较大，因此卡顿的频率一般较低，用平均值和卡顿的频率打分得到的结果可能会偏高。所以把测试过程按照卡顿和流畅分段，计算每个卡顿区间的打分和持续时间可能更有参考意义。