线上异常分析报告
时间: 2020-09-10 10:50 ~ 11:10
事件: 20200910-线上优惠卷服务-异常20分钟
影响: 线上优惠卷使用异常.
损失: 暂无
解决办法:
1. 目前新脚本有自动检查,自动恢复功能, (已有)
2. 建议开发人员代码, SQL多重复合查询优化. 支撑高流量,更多在线用户并发. 避免经常异常出现.
3. 升级本机硬件.(目前资源充足, 不建议)
4. 升级数据库服务器硬件.(目前资源充足, 不建议)
风险等级:
商务推广阶段, 很致命, 此阶段风险极大.
容易出现优惠卷使用异常. 体验度差, 用户流失, 营销费损失等.
开发调试阶段, 看不出情况.
异常的日志场景: 服务请求超时
分析过程
1.阿里云上海机房无升级无维护无中断报告
2.单服务,异常的54-服务器, 资源使用率情况分析: cpu, 内存 都正常
3.服务器服务运行正常, 日志正常写入.
4.服务,异常的54-服务器, tcp连接数, 带宽情况分析, 10:00-11:30 有点点点高.
5.阿里云数据库: 10:00-11:00 每秒输出流量异常, (服务器对数据库的查询, 时间段异常)
6.异常日志分析
运维工程师 王东泉
2020-09-10
签名:这个人很懒,什么也没有留下!