往往在故障复盘的时候故障怎么定级、定责我们没有抓手容易扯皮推诿,这篇文章从什么是故障、故障分类分级、业务重要级别结合业界互联网公司经验来帮你在企业中怎么做故障定级和定责,希望对你所帮助。
互联网产品提供7*24小时服务,而因配置变更、程序Bug等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的稳定性,规范各业务线的变更、故障响应,对故障"分级和定责"是有一定的必要性的。
故障定级和责任分配的目的并非是为了追究个人责任,而是为了更有效地解决问题、提高系统稳定性,并确保业务连续性。通过对故障进行分类和分级,团队能够更有序地响应不同类型和严重程度的问题,优先处理对业务影响较大的故障,从而降低潜在的损失。责任分配则有助于团队更好地协同合作,确保每个成员能够专注于其擅长的领域,共同追求问题的迅速解决。在这个过程中,强调的是整个团队的合作和学习,以推动持续改进和提高整体服务水平。
故障怎么定级和定责,下面先来看看什么是故障。
百度百科:不能执行某要求功能的一种特征状态。它不包括在预防性维护和其他有计划的行动期间,以及因缺乏外部资源条件下不能执行要求的功能。
ITIL中的定义 : ①非计划性的IT服务中断,或者IT服务性能的下降。②配置项的失效,即便没有影响到服务。
阿里云产品-运维事件中心定义:在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。比如:
1. “用户体验下降”说明故障的核心要关注用户感受,可通过客服渠道获知用户投诉,也可通过监控渠道推知用户端的使用情况;
2. “服务中断、服务品质下降”说明即使用户没有投诉(甚至没有用户使用),但是如企业提供的服务出了问题,也是故障;
3. “无论什么原因”指无论是企业自身原因,还是第三方如供应商、运营商的原因,只要影响到了用户,就都是故障。
在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。
要给业务故障定级,得先知道业务的重要性,不同的业务相同的场景定义的故障级别也是不一样的
业务 | 说明 |
核心业务(L1) | 公司的核心业务,发生故障影响公司业务连续性、造成资损、影响公司形象 |
重点业务(L2) | 重点业务不可用影响核心服务的稳定性,并造成部分用户不能使重点业务 |
重要业务(L3) | 重要业务不可用会对重点业务稳定性有一定影响,不影响核心服务的稳定性 |
非核心业务(L4) | 非核心业务不可用不直接影响线上服务的可用性,比如技术运营平台或者公司内部系统 |
故障分类一般是围绕可用性的角度上进行一些分类,大体上可以分为5类。
类别 | 说明 |
配置变更类 | 70%的故障是由配置变更带来的,比如代码上线、数据库、服务器、网络、脚本等配置变更 |
安全类 | 业务漏洞导致数据泄露、服务被DDOS攻击、业务被挂马等 系统被入侵,数据被篡改,被勒索等 |
网络类 | 运营商网络故障、域名劫持、网络设备故障、带宽不足等 |
三方类 | 业务以来的三方服务比如CDN、消息、推送、支付、云服务商故障等 |
突发流量类 | 突发事件、社会热点、活动流量预估不足导致的业务故障等 |
故障定级的维度是要根据自己公司的业务特性来做选择,下面是一些互联网公司故障定级维度供你参考。
公司 | 维度 |
阿里云 | 重要性、影响面、持续时间 |
钉钉开放平台 | 业务模块的“重要性”,“影响面大小” “处理时长” |
蘑菇街 | 根据错误预算消耗的比例来指定故障的级别 |
美图 | 重要性、影响面、持续时间、发生时间段 |
级别 | 等级 | 说明 |
P1 | 重大故障 | 可用性:核心功能或重点业务完全不能使用 安全:核心数据损坏、丢失、泄露,比核心数据如个人信息 资损:资损超过5万 用户体验:用户反馈超过10人,付费用户反馈超过3家 |
P2 | 严重故障 | 可用性:部分主要功能不能使用或次要功能大部分不能使用 安全:部分核心数据损坏、丢失、泄露 资损:资损超过1万 用户体验:用户反馈超过5人,付费用户反馈超过1家 |
P3 | 一般故障 | 可用性:次要功能不能使用,用户体验变差 资损:资损超过2千 |
P4 | 轻微故障 | 可用性:非核心业务部分不能使用 用户体验:产品文案排版、错别字 |
这里给予业务系统级别、故障时长、影响用户量级制定的故障等级,大家可以根据自己公司的业务情况参考
业务系统 | 故障时长 | 影响全量用户 | 影响部分用户(超过30%) | 影响少量用户 |
L1 | 超过60分钟 | P1 | P1 | p2 |
L1 | 超过30分钟 | P1 | P2 | p3 |
L1 | 超过10分钟 | p2 | P2 | p3 |
L1 | 10分钟以内 | p3 | P3 | p3 |
L2 | 超过60分钟 | P1 | P2 | p2 |
L2 | 超过30分钟 | P2 | P2 | p3 |
L2 | 超过10分钟 | p2 | P3 | p3 |
L2 | 10分钟以内 | p3 | P3 | NULL |
L3 | 超过60分钟 | P2 | P2 | p3 |
L3 | 超过30分钟 | P3 | P3 | p3 |
L3 | 超过10分钟 | p3 | P3 | p3 |
L3 | 10分钟以内 | NULL | NULL | NULL |
L4 | 超过60分钟 | P2 | P3 | p3 |
L4 | 超过30分钟 | P3 | P3 | NULL |
L4 | 超过10分钟 | NULL | NULL | NULL |
L4 | 10分钟以内 | NULL | NULL | NULL |
参考 钉钉开放平台应用故障定级标准
参考 运维-运维体系标准化之故障管理
下面是两个定级参考范例。首先是交易系统,主要以钱为衡量指标。
另一个是IM即时通信App的故障定级标准。
参考:围绕故障管理谈SRE体系建设
故障定责可以参考以下维度
高压线原则
未经发布系统,私自变更线上代码和配置
未经授权、严格的方案准备和评审,私自在业务高峰期(9点19点)进行硬件和网络设备变更
未经授权、严格的方案准备和评审,私自在业务高峰期(9点19点)进行组件变更
未经授权,私自在生产环境进行调测性质的操作
未经授权,私自变更生产环境数据
变更执行
比如变更方没有及时通知到受影响方,或者事先没有进行充分的评估,出现问题,责任在变更方;
如果通知到位,受影响方没有做好准备措施导致出现问题,责任在受影响方;
变更操作的实际影响程度大大超出预期,导致受影响方准备不足出现故障,责任在变更方。
服务依赖
比如私自调用接口,或者调用方式不符合约定规则,责任在调用方;
如果是服务方没有明确示例或说明,导致调用方出现问题,责任在服务方等等
健壮性原则
根据服务的健壮性定责。例如服务A挂掉导致服务B出问题,这时候责任不能完全划分到服务A上,还要考虑到服务B本身的健壮性;(缓存redis挂了,依赖方业务挂了)
其他
出现core或oom导致的问题,不管触发的原因,谁写的代码谁的团队承担;
演习时,操作者不承担责任,哪个系统挂掉,对应的团队承担;
一个小的触发因素导致一个超大的故障时,恶化的模块承担责任,而不是触发者;
每个模块有责任保护自己声称容量以内的流量和用户,超出流量可以限流但不是不能超时,谁超时谁的责任;
第三方服务故障,比如机房故障。
等级处罚P1责任人xxx元 Leader xxx元,公司级通报P2责任人xxx元 Leader xxx元,公司级通报P3责任人xxx元 Leader xxx元,产品线通报P4小组内通报金额大家可以视情况而定,处罚金额P1到P3级别逐级减少。处罚金额可以用于团队团建、购买书籍、团队内部激励等。
在面对故障时,我们要明确,我们的目标并不是通过处罚来追求责任,而是通过解决问题和共同学习,提高我们的团队整体素养。故障处罚并非目的,而是帮助我们更好地理解、预防和应对未来可能出现的问题。
每一次故障都是一个学习的机会,是我们不断提升的契机。我们相信,通过共同努力,我们能够更好地理解系统运作的复杂性,改进我们的流程,从而提高我们的整体稳定性。
团队的力量在于我们共同努力、相互支持的精神。让我们一起积极面对问题,不断改进,不仅仅是为了解决眼前的故障,更是为了构建一个学习型、攻克难题、能打胜仗的团队文化。
本文由哈喽比特于1年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/aAVpK-WnAnAAolRuvchjXg
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。