性能问题汇总

1. 压测端硬件、网络或软件

问题1：域名压测导致大量请求流向外网，并出现流量清洗

现象：测试结果显示tps非常低，请求量压测端统计与服务端统计相差很大

解决思路：

确认压测域名是否走内网IP，ping + 压测域名获取到的ip地址与运维确认是否为内网ip，若不支持ping（腾讯云机器不支持ping）可尝试tracert。

确定未走内网可能需要运维协助，在入口机器（nginx）配置host将域名指定到某台或多台服务器上。

问题2：jmeter测试报告显示出现各种异常报错信息，如500、502、Non Http responsecode

现象：控制台错误请求量增加、测试报告显示相应错误提示、错误

解决思路：确定错误类型，根据错误类型寻找错误真实原因。

Non HTTP response code: java.net.ConnectException，java.net.ConnectException,一般是连接超时（查日志）。从几个方面排查，脚本问题、网络、服务器承受能力到了极限（监控系统资源），并发量超过系统处理能力会出现这种情况（可参考http://confluence.sui.work/pages/viewpage.action?pageId=13182064）

问题3:jmeter Jvm分配内存不足导致内存溢出

现象：控制台出现报错，出现OutOfMemoryError

解决思路：

Windows中对应的文件路径：Jmeter_Home/bin/jmeter.bat

set HEAP=-Xms512m -Xmx512m

set NEW=-XX:NewSize=128m -XX:MaxNewSize=128m

Linux下对应文件路径：Jmeter_Home/bin/jmeter

HEAP=-Xms512m -Xmx512m

NEW=-XX:NewSize=128m -XX:MaxNewSize=128m

通常就meter默认的HEAP -Xms512：初始化内存大小，-Xmx512m：最大堆内存。需要增加内存的时候需要注意

- 一般会将-Xms和-Xmx两个值配置为相同值，目的是为了能在java的GC完成后堆内存不需要重新分隔计算堆区大小而浪费资源

- -Xms和-Xmx两个值修改的值一般需要为512的整数倍

- -Xmx不要超过物理内存的50%，超出可能会导致jmeter变慢

- 当脚本执行过程中出现内存溢出outfmenmory错误，先尝试增加增加HEAP的-Xms和-Xmx

- JDK32位的电脑Xmx不能超过1500m，最大1378m.否则在启动Jmeter时会报错

- -XX:NewSize：新生代初始内存大小，该值一定要小于—Xms

- -XX:MaxNewSize：新生代可被分配的内存的最大上限，这个值应该小于-Xmx的值，因为新生代占内存来自整个堆内存通常设置为-Xmx的三分之一

- jvm在执行GC时，会停止工作。MaxnewSize的增大，可以降低GC频率

问题4: 端口被占用

现象：并发6000次/s，错误率高达66.89%

错误日志：Non HTTP response code:java.net.BindException,Non HTTP response message: Address already in use

原因：Jmeter windows压测环境：Windows Server 缺失MaxUserPort和TcpTimedWaitDelay；限制了tcpip最大连接数和响应时间

解决办法：注册表HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/ Services/TCPIP/Parameters;添加MaxUserPort和TcpTimedWaitDelay，分别设置值为65534、30，以增大可分配的tcp连接端口数、减小处于TIME_WAIT状态的连接的生存时间

2. 服务器硬件、网络

问题1：压测方式使用的是域名压测，走的外部网络，所以压测压力未能如预期一样对目标服务器施压，导致TPS非常低，服务器各种资源消耗也很小。

现象：使用单台压测机器分别进行了100、500、1000进程压测，500个线程的时候tps只有180-200，再增加压力Tps上不去。

解决思路：一开始以为服务器连接数有问题，修改Tomcat最大连接数无效果。最后统计压测端请求量与被测服务器接收请求量相差比较大

解决方式：网络入口配置host/dns的形式将指定域名的请求全部指向测试服务器（对应IP）

问题2：原有集群到达最大极限，TPS达到280左右就出现CPU适应过高的情况

现象：2台web和4台service在调整配置、代码优化出现瓶颈，使用单台压测机器分别进行了100、500、1000进程压测，500个线程的时候tps达到280位最高并发，90%响应时间最小而且CPU等资源正常，增加并发数到1000后tps降低、响应时间增加CPU使用率>70%

解决方法：增加集群机器

3. 中间件

问题1：Nginx入策略配置不平均，后端4台服务器负载不均衡，导致压测时其中一台cpu使用率远远高于其他3台

解决：优化Nginx轮训策略，默认使用的轮训算法修改成安权重分配

问题2：Nginx入口未开启长连接，导致TPS上不去

现象：增加并发数，tps、响应时间无太大增长，服务器资源消耗都在正常范围内，TPC连接数中出现大量time-wait，tomcat已开启长连接配置，可以确定是入口长连接配置没生效

- keepalive_timeout 20s; #一个keepalive 连接被闲置以后还能保持多久打开状态

- keepalive_requests 1000; #一个客户端可以通过一个keepalive连接的请求次数。

问题3：Tomcat连接处瓶颈，导致高并发时出现接口超时

现象：500线程组并发的时候，服务端日志出现大量超时提示，排查Tomcat线程数配置的时候发现maxThreads(线程池中最大活跃线程数)为100。

解决：修改maxThreads、accept-count为500后错误解决

- maxThreads：最大请求进程数，默认设置为200，该值设置应该考虑实际情况，当

请求进程数达到最大值时，一般会出现错误提示：SEVERE: All threads (150) are currently busy, waiting. Increase maxThreads (150) or check the servlet status

- accept：可接队列长度，与maxThreads对应，当达到maxThreads后进入等待队列。而等待队列数达到最大值后，再有新请求后就会出现refuse connection（拒绝请求）

问题4：. 502 Bad Gateway和504 Gateway Time-out

问题定位：tomcat的参数配置问题

解决办法：调整tomcat配置文件server.xml的配置：主要是最大线程数、最大建立连接数和最长连接时间。

问题扩展：Nginx或腾讯云LB代理模式下后端tomcat服务器出现问题引起的。首先，检查Nginx/腾讯LB或者tomcat的配置参数；其次，检查tomcat应用服务器的内存、CPU和代码BUG导致的。服务端栗子：方法内部RPC 调用，并发大，方法可用率下降，同时调用次数也会急剧上升。系统外部服务的接入层，对接逻辑容器时，应该添加缓冲队列，最好异步。

问题5：未开启长连接

- keepAliveTimeout=300000

- maxKeepAliveRequests=50000

问题6：dubbo参数优化

现象：随着压测并发线程数递增，tps未能如预期中同步正向增长，达到峰值出现一定的下降。在调整了Tomcat配置参数后进一步优化其他中间件配置

dobbo:protocol-服务提供者协议配置：

- name ：协议名称

- port ：dubbo协议默认端口为20880，如果配置为-1或没配置port，则会分配一个没被占用的端口

本次调优主要关注一下内容：

- heartbeat ：心跳间隔，对于长连接当物理层断开（如拔网线，TCP的FIN消息未能及时发送，对方收不到断开事件此时就需要心跳检查连接是否断开）

- dispatcher ：协议的消息派发方式，用于指定线程模型，比如：dubbo协议的all, direct, message, execution, connection等

- threadpool : 默认fixed,线程池类型，可选：fixed/cached

- threads : 服务线程池大小，默认值为100

dubbo:reference-服务消费者引用服务配置：

本次性能优化主要关注内容

- connections ：对每个提供者的最大连接数，rmi、http、hessian等短连接协议表示限制连接数，dubbo等长连接协表示建立的长连接个数

- timeout ：服务方法调用超时时间(毫秒)，缺省使用<dubbo:consumer>的timeout。

问题7：JVM优化

现象：TPS每隔段时间就降为0

问题定位：（1）监控tcp的连接数，等待数；（netstat -an |grep 6222 | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}‘）（2）查看服务端FULL GC的次数（过多，FULL GC会导致所有线程）

解决办法：JVM调优+ tomcat参数调优

1、取消飞行记录模式，去除参数（-XX:+UnlockCommercialFeatures -XX:+FlightRecorder）

2、jdk1.8 下取消了-XX:PermSize=500m-XX:MaxPermSize=500m

3、垃圾回收机制改成G1模式（堆内存被划分为固定大小的多个区域，存活的对象从一块区域转移到另一块区域，这样可以进行垃圾回收的同时不停止其他应用程序线程）

JVM的常用参数如下：

-Xms设置初始化堆的最大值

-Xmx 设置堆的最大值

PS：-Xms和-Xmx一般是相同的，可以减少Full GC的频率，最大可以到服务器总内存的80%

-Xmn 设置年轻代的大小（年老代=最大值-年轻代），一般为最大值的1/3左右。

问题8：java 启动脚本优化

4. 数据库、缓存等

问题1：DB 优化

（1）优化sql，尽可能少使用join、or 语句，select 出来的字段是必需的字段。

（2）优化索引，让每条select 都走索引

（3）设置连接池的最大连接数,设置为10000/14 = 700, (10000 为项目使用的mysql 最

大连接数,14 为机器数)

（4）尝试测试不同的连接池，选择性能最佳的，如图4 为数据库连接池性能测试，最

终确定选择hikari。

（5）不使用数据库事务，因为数据库操作代码都在消费者中，在代码中做幂等性。

查询一条语句性能测试(ms)

问题2：Redis优化

1、优化redis 存储数据结构

将db 中的数据load 保存为redis 的hash 结构（全表保存），根据业务优化redis 存储

结构，减少redis 查询次数(例如将phone 和券code 的领取状态单独存储)。

2、redis cpu为单核，进行分片处理

大量查询会成为严重短板，通过hash 值进行分片处理，因为项目不存在热点key 的问

题。优化过后redis 能够承受的量是之前的3 倍。

3、设置redis最大连接数

Redis 最大连接数设置为：3*10000/14 = 2100(这里乘以3 是因为微利项目有三台redis)

问题3：mq 优化

1、优化mq 消息

消息体一般为redis key，可以去redis 拿取数据，优化消息存储大小。按功能不同，拆

分多个队列，加快单逻辑处理速度，微利项目根据业务拆分为5 个队列。

2、加快消费者消费速度

增加消费者数量为20 个，根据下游(DB、业务方)TPS 多次测试得出，可以利用消费者数

量控制下游的负载。

增加消费者预读取数据数量为50 个，从而减少网络请求次数。

优化消费逻辑，完善幂等操作(解决消息重复消费问题)，db 操作，业务查询操作。

问题4：Redis连接池瓶颈

优化后的配置：

redis.pool.maxTotal=5000

redis.pool.maxIdle=100

redis.pool.minIdle=50

关键参数说明：

maxTotal：资源池中最大连接池，默认值8

- 最大连接数的配置需要结合实际情况进行调整，而考虑的关键因素包括：

- 业务要求Redis达到的并发量

- 客户端执行命令时间

- Redis资源：如应用个数*maxTotal不能超过Redis的最大连接数

- 资源开销：控制空闲连接，尽量使连接池的频繁创建、释放造成不必要的开销

例如：

假如一个命令的平均耗时是1ms，一个连接的QPS（Redis每秒执行指令数）大约1000，而业务要求QPS（每秒执行请求数）是50000。

理论上资源池最大连接池设置应该为50000/1000=50个，但是实际设置上可以比理论值稍大。需要注意的是该值不是越大越好，一是连接太多需要占用客户端和服务端更多资源另一个是Redis假如出现阻塞资源池再大也没作用。

maxIdle：资源池允许最大空闲的连接数，默认值8

minIdle：资源池确保最少空闲的连接数，默认值0

- maxIdle：实际上才是业务需要的最大连接数，该值不能过大（不能大于maxTotal）或过小（过小会导致新增Redis连接开销），而minIdle是为了控制空闲资源监测

备注：以上均参考自https://yq.aliyun.com/articles/236383

问题5：DataSource参数优化

spring.datasource.initialSize=10

spring.datasource.minIdle=10

spring.datasource.maxActive=200

spring.datasource.maxWait=60000

- initialSize，连接初始值，连接池启动时创建的连接数量的初始值

- maxActive，连接池的最大值，同一时间可以从池分配的最多连接数量，0时无限制

- maxIdle，最大空闲值.当经过一个高峰时间后，连接池可以慢慢将已经用不到的连接慢慢释放一部分，一直减少到maxIdle为止，0时无限制

- minIdle，最小空闲值.当空闲的连接数少于阀值时，连接池就会预申请去一些连接，以免洪峰来时来不及申请

问题6：领券接口gainTPS 2W/s达到瓶颈

问题现象：6台tomcat服务器+3台redis-cache+2台redis-MQ的TPS仅有2W/s，和理论值6k（单台tomcat的最大值）有差距。

问题定位：（1）增加一台redis-cache，TPS没有改观，初步断定redis-cache存在瓶颈。（2）代码分析：发现gain接口里面有大量的increment操作；热点key避免产生瓶颈落在不同的redis上，但increment时所有的机器都来竞争操作这个key，造成瓶颈。（3）查看redis的监控，发现4台redis-cache中有1台的CPU达到100%，其他3台都在80~90%，形成木桶效应。

解决办法：increment主要是为了实时统计领券量，并显示在看板上方便监控数据。非核心业务，可以去掉increment操作，改成通过elk日志统计。

问题7：热点key达到瓶颈

典型的瓶颈问题：并发量大时，操作同一个key（热点key），hash的方式可能会落在同一台redis服务器，达到单台redis服务器的瓶颈。

存在问题的场景：理财市场登录预热（除夕红包活动开始前把所有开户信息加载到缓存中）

解决办法：对热点key进行加工和计算。理想的情况下，集群中有N个缓存节点，那么加工后的key也应该有N个。

问题8：Jms消费慢

问题现象：压测gain接口，jms消息有堆积

优化点：1、redis用的公共组件，有加锁；2、gain接口会产生两台msg消息，分别丢进两条队列（一条入库，一条调腾讯接口），同步改成异步；（3）一个线程取消息多个线程消费-》改成多个线程取消息多个线程消费

问题9：spdata分发有延时

问题现象：云上的数据向IDC推送数据用到了JMS消息，并发量大，容易延时（已知问题）。

影响范围：理财仅响应运营系统发奖，卡牛和微粒影响了云上的兑换，导致用户体验不好。

解决办法：spdata分发的方案不变，再增加方案：领取时前端已加密串形式保存QQ用户信息，给兑换奖券时用。

问题10：日志优化(通过日志分析不出来)

1、异步写日志文件

2、减少日志打印，例如正常请求仅打印入参和出参

3、kafka+ELK

问题11：spdatad多业务方数据源问题，导致预演并发量时，卡牛和微粒的数据未下发，不能兑换奖券(线上问题)

问题原因：for循环按业务下推数据，每次先推动理财的；如果理财有下推数据，最后会clear掉dataSource，导致其他业务查询为空；如果理财未下推数据，不会调用clear，正常推送其他业务；

代码如下：

解决办法：dataSource从上文传下来，避免执行clear时，dataSource被清空

规避方法：增加多业务的性能测试场景（跨公司的压测资源和环境受限）；

问题12. 业务繁忙(线上问题)

问题原因：

（1）网络原因，例如：静态资源文件未放运营商CDN服务器、网络慢或异常；

（2）receive_api未获取QQ:openid（小概率事件），服务端重新请求腾讯接口获取QQ用户openid，生成数字验签错误；

（3）腾讯云问题，联合腾讯压测初步解决。