一种新的告警收敛方式“先知预警”,为您的系统健康护航

一种,告警,收敛,方式,先知,预警,系统,健康,护航 · 浏览次数 : 49

小编点评

**先知预警技术方案** **1. 识别关键点变更** - 监控订单状态变化或MQ积压情况。 - 基于业务场景,例如申购、赎回、支付等场景,可通过状态变化或MQ积压进行识别。 **2. 监控关键点状态不发生变化** - 在指定的时间内,如果关键点的状态没有发生变化,则定义为可疑异常。 - 此方法可以应用于基金交易中的申购、赎回、支付等场景。 **3. 预警规则设置** - 建立异常预警规则,根据不同场景定义异常阈值或事件。 - 例如,对于申购订单,可设置异常阈值为订单状态未更改或MQ积压超过10分钟。 **4. 实施预警** - 通过监控系统日志和数据,识别和记录异常订单。 - 在规定的预警时间内,通知相关方处理异常。 **5. 优化系统性能** - 预警系统可以优化系统性能,减少对账处理的负担。 - 通过减少事件处理时间,降低对账系统负载。 **6. 实施监控与预警** - 建立监控预警系统,实时监控系统状态和异常变化。 - 通过定期分析异常数据,及时发现并处理潜在问题。 **7. 评估效果并进行调整** - 定期对预警系统进行评估,分析异常发现率和处理效率。 - 根据评估结果,对预警规则和预警机制进行调整。

正文

前言

简介

买基金,上京东

基金交易系统是用户使用京东金融APP进行基金交易的核心支撑系统,每天有数十亿元的交易额。

在大额的交易面前,系统的稳定性尤其重要,同时基金业务比较复杂,为保障每个地方的稳定,告警埋点很多,加上各种日终检查,看似很完美,实际却有了新的问题,因告警太多,日检滞后,而无法快速处理有效异常,导致对账延迟和引发客诉。

结合日常处理经验,我们重新思考是否有好的方式,提前发现异常,改善此事,于是在基金交易系统中做了一件事情,有效的提高了系统的稳定性,以下为此事的主要效果

工单数量:相对2022年1-6月的客诉总数(334)减少127个,对账时间:稳定在16点半前完成,异常订单:从每天几个变成偶发出现, 后续流程:比以往有了较强的稳定性, 同时也间接的释放了,因客诉异常引起的资源消耗(客服,产品,研发,工程师),提高了用户一定体验和满意度。

什么事项

为基金交易系统增加了新型的异常预警,能更加有效的提前发现系统异常,快速解决

为什么做这个事情

在基金交易中,每天有几十万的订单,交易额有数十亿,基金业务场景不仅又多、又复杂,而且链路也比较长,盘后的数据检查经常由于各种原因出现异常订单(运营配置错误,基金公司下发文件异常,系统bug等),而无法顺利对账,影响后续流程。排查定位和修复问题,需在2小时内完成,如果超过时长会对后续流程造成严重的影响,所以有效异常的提前发现和预警就非常重要

基金交易系统异常告警无法满足吗?

交易系统中现有2种告警,一种是即时告警,一个日终报警

即时告警由于老项目时间久,存在历史原因,每天会收到数千封即时告警邮件,想筛选出真正的有效异常,变得非常困难,还有一定的时效性。

日终报警, 是在每日交易结束后,系统会自动进行日终检查,如果发现异常,需在2小时内解决,而且只能对已发生的结果进行修正,个别异常还好,如果出现批量异常,那么2小时就非常宝贵。短时间内的修复,不仅存在高压出错的风险,还可能因此对后续流程产生隐患,甚至对用户造成影响,引发客诉工单。异常工单的处理,是对客服、产品和工程师一种消耗,而且在微服务架构中排查和解决更加复杂耗时。总之每次对账出现异常,总是非常紧张。

你做的预警有什么特点

1、是即时告警和日终报警的补充

2、可通过手机一个界面随时观察异常变化

3、15分钟内即可发现疑异常订单

4、可快速定位,精确到重要场景

预警具体怎么做到呢?

首先对账能否顺利,取决异常情况,而异常又无法彻底避免,提前发现与控制就非常重要

如图,各种场景都可能出现异常

制定异常发现和处理策略

面对告警过滤困难,日终滞后, 结合历史处理经验,对系统进行再次思考,是否有更简单的方式,能有效的对异常进行实时发现预警?

通过探讨,总结了一个简单的规律:

如果关键点没按照指定时间内变更,即可定义为可疑异常 ,其严重级别可以通过汇总数量进行表示

于是制定了如下策略

制定监控预警技术方案

1:首先要基于本身的业务进行识别,基金交易对账是对订单的最终标记状态校验,我们假设一个支付的订单,如果在15分钟内,订单的状态没有发生变化,是否设定为可疑异常?其原因可能很多,如网络问题、MQ消息延迟、代码BUG等等,总之是有问题,那么这样的订单数量越大,就代表其影响的订单就越多,对账的风险就越高。

2:关键点的异常识别,可以采用同样的逻辑,如果在指定的时间内,关键点的状态没有发生变化,即可设定为可疑对象,比如基金交易的重要场景:申购,赎回,支付,非交易过户,退款等场景,都可以基于场景数据的状态变化或者MQ的积压情况进行识别,举个申购的例子:用户申购完成后,后续的流程是采用MQ和任务的方式执行,每个任务都有初始和完成状态,如果这个申购任务在15分钟内,没有标记为完成,即可定义为可疑异常,此类的状态的任务越多,影响对账的风险就越高

落实技术方案

实践中验证效果

效果:刚上线只对总订单和2个场景加了预警,慢慢增加到11个场景,效果也很明显,异常基本上在交易中就被提前发现,如果操作失误,可提前告知相关方修正,如果是系统BUG,就可提前紧急修复,后续再推进根治和架构升级。随着时间推移,影响对账异常范围,虽不能百分百覆盖,但是容易出错的关键点,已经得到有效控制,近几个月,偶发才出现几单(历史用户的存量异常订单引起),对账得到了有效的保护。

经典案例,2023年春节期间,通过预警发现几个异常订单出现,通过排查,是因为基金公司下发可赎回时间为非交易时间引起,涉及16个TA,4000多条记录,假如没提前发现,节后可能会引发批量的异常订单和客诉,形成事故,通过发现处理,规避了发生。

总结

通过这个预警系统,我们能够提前发现并主动处理对账事后异常,其技术难度并不高, 更多的讲究的是一个方法。对此方法起了一个名字叫"先知预警",也希望此理论能对您的系统有所帮助。例如实战中,今年618的拉新活动渠道的监控,10分钟如果没产生订单就进行电话预警;基金停售提前3天邮件电话预警,都可以用此理论解释。

先知预警:是一种基于时间序列分析和业务理解的预测方法,它通过分析历史数据和理解业务,预测未来可能出现的关键点和变化趋势,并及时进行预警和调整,以确保业务的稳定运行。

作者:京东科技 江亚宁

来源:京东云开发者社区

与一种新的告警收敛方式“先知预警”,为您的系统健康护航相似的内容:

一种新的告警收敛方式“先知预警”,为您的系统健康护航

通过这个预警系统,我们能够提前发现并主动处理对账事后异常,其技术难度并不高, 更多的讲究的是一个方法。对此方法起了一个名字叫"先知预警",也希望此理论能对您的系统有所帮助。

[转帖]什么是pagecache/dentries/inodes?

https://ixyzero.com/blog/archives/3233.html =Start= 缘由: 最近因为新上了一个扫描功能导致大范围内的机器告警,新上的功能代码其实非常简单: find / -type f -name "ffmpeg" -executable 2>/dev/null

salesforce零基础学习(一百二十二)通过 excel / csv创建 object

本篇参考: https://help.salesforce.com/s/articleView?id=sf.dev_objectcreate_task_lex_from_spreadsheet.htm&type=5 背景:当客户给我们N个表的数据,告诉我们需要创建一些新表,然后导入这些数据的时候,我

微信小程序:接手项目,修bug

好家伙, 问题描述如下: 小程序主界面,选择快速上传会议记录 选择快速 其中,没有2022-2023第二学期,所以,新的会议记录无法上传 于是,我自愿修复这个bug 由于我们没有产品文档 我只能由已知,推未知 亲爱的学长告诉我,这是一个使用了uni-app开发的微信小程序 开搞, 1.首先我们把两个

过年必备!亲戚计算器「GitHub 热点速览 v.23.02」

过完这周大家就要开始为期 7 天的春节长假了,当然有些 HG 小伙伴拥有了 10+ 天的长假就低调点不要告诉他人,以免招人妒忌。春节必经的事情可能就是走亲戚了,所以本周特推选取了一个研究亲戚关系的资深项目,助你不用母上大人开口就能叫出这位不知名的亲戚是你的谁。 回到本周的 GitHub 趋势,新上线

InstructPix2Pix: 动动嘴皮子,超越PS

摘要:InstructPix2Pix提出了一种使用文本编辑图像的方法:给定输入图像和编辑指令,告诉模型要做什么,模型将遵循这些指令来编辑图像。 本文分享自华为云社区《InstructPix2Pix: 动动嘴皮子,超越PS》,作者:杜甫盖房子。 InstructPix2Pix: Learning to

Stable Diffusion AIGC:3步成为P图大师

摘要:instructPix2Pix文字编辑图片是一种纯文本编辑图像的方法,用户提供一张图片和文本编辑指令,告诉模型要做什么,模型根据编辑指令编辑输入的图像,最终输出用户想要的图像。 本文分享自华为云社区《【云驻共创】Stable Diffusion AIGC限时0元!3步成为P图大师》,作者:香菜

一种新的基于机器学习的示波法血压估计方法,开源、低功耗、低成本的人工智能软硬件提供者

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能 血压的测量和预测是心脏病患者和有心脏问题的人的一个重要条件,应该保持持续的控制。在这项研究中,基于从使用袖带的个体获得的振荡波形,振荡波形分为三个周期。第一个周期是从起点到收缩压(SBP),第二个

【稳定性】稳定性建设之弹性设计

弹性设计为系统稳定性建设提供了一种新的视角和方法,它有助于提高系统的可用性、性能和安全性,同时也降低了维护和修复的成本和风险

基于神经网络的柯氏音血压计

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI 前言 虽然血压(BP)的测量现在广泛地由自动无创血压(NIBP)监测设备进行,因为它们不需要熟练的临床医生,也不存在并发症的风险,但其准确性仍存疑。本研究开发了一种新的基于端到端深度学习的算法,该算法直接