大促质量备战之三化战役:“常态化、精细化、一体化”

质量,备战,之三,战役,常态,精细化,一体化 · 浏览次数 : 43

小编点评

**大促质量备战策略** **常态化** * 将部分备战工作纳入常态化,通过双周会形式推进系统架构治理。 * 利用流量驱动技术提高资源利用效率。 * 采用健康指数标准确保应用/任务健康度。 **精细化** * 通过资源潮汐技术实现资源弹伸缩。 * 采用质量加固确保资源合理使用。 * 在活动类专项保障中,进行场景演练和预案演练。 **一体化** * 提升系统稳定性和可靠性。 * 优化用户体验。 * 通过联防联控确保各环节协同。 * 严格执行集团的《系统上线封板新要求》。 **三、同舟共济** * 协同确保各环节之间的协同畅通。 * 及时响应问题。 * 预案可视化、自动化及高效协同。

正文

大促作为JD一年两度的盛事,质量备战是不可或缺的重要环节。每逢大促都是一次大型的联合战役,在这种战役中,不仅有各种“海陆空”技术争奇斗艳,还会让我们的技术视野变得更宽阔,让我们协同变得更默契,所谓以战养兵。测试团队作为质量备战团队,沉淀了“常态化”、“精细化”、“一体化”的三化备战策略,希望与君共勉,共保大促!

一、常态化篇( 步履匆匆,筹谋早行,日日如此,稳操胜半)

测试联合架构师把大促备战事项进行分类、分级划分,将部分备战工作纳入常态化,通过双周会形式推进系统架构治理,提前消除隐患,使其安全稳固,资源高效。

1.1 流量驱动(流量定开关,伸缩助节源)

为了提高资源的利用效率,产研测联合成立治理专项。全面分析产品流量状况和机器资源利用率,持续推进低价值产品的关停并转,释放机器资源。通过推进与完善ServerLess部署,使其核心应用具备快速扩缩容能力, 实现资源动态调整。基于流量的关停并转和全面覆盖的弹性伸缩,为大促备战低碳化打下了坚实基础。

1.2 健康指数(健康指数高,高危勿忽略)

  • “规则统一,忽略有据”: 测试联合架构师团队设定“不可忽略项”的标准,使团队成员认知统一,防止忽略潜在风险,虚假高分埋下生产隐患。
  • “策略驱动,重心聚焦”: 健康度提供较多检查项,可以更好地进行应用/任务自检,及时发现和解决潜在的问题。针对特定事项进行专项治理也是非常必要的,可以采取有针对性、有策略的措施,以提升应用/任务的健康度。如:链路超时,JVM参数GC线程数合理性,监控告警治理(监控覆盖度、告警合理性、触达有效性) 和 慢SQL治理 等。
  • “天天检查,日日治理”: 利用自动化方式按日检查不合规的忽略项和应用健康分,运营通晒治理,确保目标达成 。

二、精细化篇(丝丝入扣,点滴精雕,精细之道,有备无患)

在构建需求节奏控制、系统质量备战、资源共享配置的平衡关系上,测试团队应充分发挥资源池优势,通过使用公司统一的平台工具实现精细化质量备战,确保资源利用的合理化,专项备战的差异化,演练场景的多样化,巡检事项的自动化,从而提升系统/产品质量和备战效率。

2.1 资源潮汐(流量蜂蛹至,资源弹伸缩)

  • “人力潮汐,未雨绸缪” : 大促需求可能会对备战带来一些潜在风险,因此产研测团队通常会提前1-2个月与业务方识别和锁定需求,并将测试资源倾斜到重点项目。通过打造人力资源池,既可以提高长期人力资源规划的有效性,又可以实现对临时业务需求的灵活支持,从而更好地应对潜在风险。
  • “资源合理,即时释放” : 军演压测是一种有效的容量评估手段。通过设定性能标准,如CPU使用率在50-60%之间,未达到标准则进行资源的缩容,使其使用更加合理,提高资源利用率。通过极限压测,可确保在高负载下系统能够稳定可靠地运行。结合业务特性,使用ServerLess的潮汐或冷扩策略实现资源弹伸缩。

2.2 质量加固(地毯式巡检,自动化护航)

  • “质量加固,精细保障”

1.以APP端为例的大促版本质量保障,我们采取以下措施保障和流程管控:基于大促版本重新梳理及联合评审核心场景用例,在集成测试阶段,功能核心场景全面回归覆盖,页面加载性能优化和Crash稳定性治理等。并在灰度发版之前,进行运营配置DoubleCheck和众测。同时,进行代码集成管控和组件Diff,专项保障APP版本合规性和预审,以确保大促版本的交付质量和提审通过率。

2.以H5为例的活动类专项保障,我们采取了小流量剧本演练/功能巡检/兜底/众测、页面加载性能、验签加固/反爬防刷安全等质量保障措施,结合页面监控(异常、微信封禁等)、权益预警(活动有效期、优惠券库存余额)等。防止活动权益出现套刷现象,影响正常用户权益领取,提升用户体验。

  • “自动巡检,省时高效”: 基于公司统一的平台工具实现7*24小时的UI、接口、舆情及用户之声自动化巡检,提升效率。

2.3 预案演练(预案演练全,限流系统稳)

限流、降级和混沌演练是保障系统稳定性和可靠性的重要措施,可有效防护系统流量超限、提高系统鲁棒性。测试团队联合研发进行0/1级应用的多场景的混沌/降级演练和网关/JSF接口的限流配置相互Check,确保限流配置合理,预案演练全面且执行到位。为预案的可视化、自动化及效率提升,测试团队联合泰山团队实现“预案大屏"和"预案执行触达" ,使其预案全部收敛至平台,实现预案自动降级,可视化感知 。

三、一体化篇(同舟共济,群策群力,众志成城,胜券在握)

联合防护和高效协同至关重要,通过上下游或跨团队的联防联控、资源联合重保、监控的实时共享,确保各环节之间的协同畅通,问题及时响应。

3.1 联防联控(协同紧密连,配合展锋芒)

备战的成功依赖于多个系统和团队的支持,因此确保各环节之间的协同畅通,及时响应问题至关重要。为此,我们集中备战,测试主导并梳理产运研上下游接口人,建立沟通群,产研测业务BP,确保关键节点的及时沟通和配置修改的双重检查。通过打通用户反馈渠道和舆情预警,并与客服建立应急预案,能够及时应对用户反馈和突发情况。

此外,为了降低大促期间的风险,我们严格执行集团的 《系统上线封板新要求》,以控制需求对线上系统的影响,并通过架构师委员会评审进行双重保障。

3.2 资源重保(资源联合保,系统稳如山)

在每次大促前,测试团队牵头,组织产研测与中间件团队联合对J资源集群的重保工作。基于系统峰值流量及可能存在潜在风险,双方进行交流并给出相关的诉求和建议,进而反哺到团队的工程实践,确保资源得到充分保障,消除潜在风险。

3.3 监控大屏(监控上泰山,实时保平安)

泰山作为内部系统监控利器,提供较为丰富的监控能力,我们可以通过雷达、全域、数据任务看板等构建出监控大屏,确保异常可及时感知。同时,营销类业务的权益监控仍然重要,测试联合架构师孵化权益监控系统,如:活动有效期、个人权益超发漏发、优惠券的库存等实时预警和告警,保障系统的可用性。

最后,大促备战是一项复杂而重要的任务,需要各部门之间密切协作和高效执行。同时,备战须提前规划和部署,实现常态化备战,避免临时抱佛脚。预祝618大卖,系统稳如磐石!!!

作者:京东零售 李英亮

来源:京东云开发者社区

与大促质量备战之三化战役:“常态化、精细化、一体化”相似的内容:

大促质量备战之三化战役:“常态化、精细化、一体化”

大促作为JD一年两度的盛事,质量备战是不可或缺的重要环节。每逢大促都是一次大型的联合战役,在这种战役中,不仅有各种“海陆空”技术争奇斗艳,还会让我们的技术视野变得更宽阔,让我们协同变得更默契,所谓以战养兵。测试团队作为质量备战团队,沉淀了“常态化”、“精细化”、“一体化”的三化备战策略,希望与君共勉,共保大促!

Mybatis-SQL分析组件

大促备战,最大的隐患项之一就是慢sql,带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,而且对sql好坏的评估有一定的技术要求,有一些缺乏经验或者因为不够仔细造成一个坏的sql成功走到了线上,等发现的时候要么是造成了线上影响、报警、或者后置的慢sql采集发现,这时候一般无法快速止损,需要修改代码上线、或者调整数据库索引。

慢SQL的致胜法宝

大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什么思路去解决是我们必须要知道的。本文主要介绍对于慢SQL的排查、解决思路,通过一个个实际的例子深入分析总结,以便更快更准确

京东物流常态化压测实践

大促备战压测备战时间紧、任务多,压测备战压力较大,在大促备战多专项并行资源紧张情况下,频繁的系统调优给整个大促带来不可控的风险因素。引入常态化压测的手段,通过每周或每月的定期压测行为,持续把控系统性能表现,保证服务稳定性;同时将需求上线引起的性能问题前置暴露,及时定位优化问题;减轻备战压力,提升压测效率。

618技术揭秘 - 大促弹窗搭投实践

618 大促来了,对于业务团队来说,最重要的事情莫过于各种大促营销。如会场、直播带货、频道内营销等等。而弹窗作为一个极其重要的强触达营销工具,通常用来渲染大促氛围、引流主会场、以及通过频道活动来提升频道复访等。因此,如果能将运营的策略及想法快速转化为弹窗的内容并触达给用户,这对于提升运营效率及玩法灵活性的是极其有意义的。

浅析大促备战过程中出现的fullGc,我们能做什么?

为应对618、双11大促,经常会发生流量过大导致Jvm出现大量young Gc 和 部分full GC的情况,使得性能下降,可用率降低等情况。本文将借助Jvm的垃圾回收机制,介绍如何避免full gc

[转帖]一次春节大促性能压测不达标的瓶颈推演

https://plantegg.github.io/2020/11/23/%E4%B8%80%E6%AC%A1%E6%98%A5%E8%8A%82%E5%A4%A7%E4%BF%83%E6%80%A7%E8%83%BD%E5%8E%8B%E6%B5%8B%E4%B8%8D%E8%BE%BE%E6%

一文了解电商大促系统的高可用保障思路

本文面向受众可以是运营、可以是产品、也可以是研发、测试人员,作者希望通过如下思路(知历史->清家底->明目标->定战略->做战术->促成长)帮助大家能够了解电商大促系统的高可用保障,减少哪些高深莫测的黑话和高大尚的论调,而是希望有个体系化的知识让读者有所得。

竞速榜实时离线对数方案演进介绍

竞速榜是大促期间各采销群提供的基于京东实时销售数据的排行榜,同样应对大促流量洪峰场景,通过榜单撬动品牌在京东增加资源投入。竞速榜基于用户配置规则进行实时数据计算,榜单排名在大促期间实时变化,相关排名数据在微博、朋友圈广泛传播,相关计算以及排名的准确性至关重要。

RPA+智能问答实现微信端智能客服

每逢618大促,业务量突增,随之产生的业务咨询量也会增多,因此为了减轻客户售后团队的压力、提升问题响应的速度、不改变用户的使用习惯、保障大促业务的稳定性24小时值班应答,第一时间帮忙客户解决问题,我们通过RPA+智能问答实现微信端智能客服,技术赋能业务,来保障整体业务的发展壮大。