SBTI价值

中国银联--六西格玛之变

  即便是现在,提起几年前的“420事件”,仍然会让中国银联IT团队的许多人心有余悸。

  2006年4月20日,上午10时56分起至晚上20时,中国银联系统通信网络和主机出现故障,造成跨行交易出现中断8个小时,银行卡交易大面积停止。

  事后查明,此次事故是由于当时准备上线的某外围设备存在隐性缺陷,进而诱发跨行交易系统主机发生故障。

  虽然中国银联宣称“420事件”并未发现对持卡人账户资金造成直接损失,但是,事件对中国银联的声誉已经造成了不可避免的影响。更为重要的是,这次事件直接暴露出中国银联内部在技术研发、管理、运营及服务等方面,尚有许多需要完善之处。

  毫无疑问,中国银联也及时看到了问题,并开始努力寻找解决之道。2007年11月,中国银联启动六西格玛项目——该项目的重要目标之一就是要改善研发、运营质量和提高技术支持服务水平。

  中国银联业务的不断发展,面临着机构扩建、产品创新、规范升级以及来自成员机构的各种业务要求,使其生产系统处于不断变更之中,这无疑是影响系统稳定的重要因素。频繁的系统变更,给生产运营带来了巨大压力。“我们必须在业务发展和系统稳定之间找到一个平衡点,通过改进流程和加强管理,使技术运营服务不仅是业务发展的支撑点,更能成为促进业务发展的增长点。”中国银联技术管理部总经理徐燕军谈道。

  在做好系统安全稳定运行的前提下,中国银联提出把技术和运营部门工作的重点从系统建设逐步转移到做好服务上来,实现技术运营工作“服务前移”。“技术运营部门改善研发、运营质量和提高技术支持服务的迫切要求,急需一种能够带来突破性改善的工具,六西格玛为我们带来了这样的新契机。”徐燕军解释道。

  从高管入手

  2007年11月,六西格玛项目在中国银联正式启动。而两个月之前,银联分管技术运营的执行副总裁柴洪峰、助理总裁戚跃民带头参加了为期两天的面向公司高层领导的六西格玛培训。“使高层领导认识六西格玛、了解六西格玛是做什么的、能给公司带来怎样的变化,对实施六西格玛很有意义。”徐燕军说道。

  为了进一步说明六西格玛的意义,徐燕军举了一个非常量化的例子:2006年受“420事件”的影响,全年异常停机时间达到8个小时,换算成西格玛水平仅为4.6σ;2006年新系统批处理及清算异常情况出现5次,西格玛水平约为3.706σ。按照2007年的考核指标,中国银联各项交易成功率指标基本在3σ~4σ水平之间,系统安全运行能力基本在5σ~5.5σ水平之间,反映出公司的运维水平还有很大的改进余地。

  为了项目能够顺利开展,中国银联在全公司范围内做了动员报告,成立六西格玛推进领导小组,各技术运营部门总经理都是小组成员。领导小组每两个月对项目进行一次阶段性评审,项目团队每三周开一次例会,对每个项目进行讨论,解决各种问题。对六西格玛项目,不仅银联高层领导参与,更有50多名业务骨干具体推动。非技术运营部门的领导也适度参与了进来,例如参加培训和业务流程研讨等,以便确保跨部门合作的畅通,并为将来六西格玛在业务和市场等部门的推广奠定基础。

  “不仅前期要做好充分准备,更要保证人才的持续跟进。在六西格玛实施到一定阶段后,配套的激励机制、六西格玛绩效考评以及人才培养发展制度等也要适时地建立起来。”徐燕军谈道。

  强化过程管理

  从项目启动到2008年4月的半年时间,被确定为六西格玛项目的第一阶段,中国银联完成了9个子项目,其中有8个绿带项目、一个黑带项目。从2008年6月到2008年12月底,中国银联又完成了7个子项目,并计划在2009年继续完成12个子项目。在一期项目中,中国银联北京信息中心按照六西格玛理论,提出“保持北京灾备系统正常运行”的目标。对于北京信息中心而言,从建立和完善灾备系统运维流程的角度出发,强化运行管理、确保灾备系统正常可用是非常必要的。

  “与上海生产中心不同,当生产中心发生灾难事故时,我们要第一时间接替生产中心,保证业务的连续性,因此我们有四种运行状态:备份状态、切换状态、生产运行状态、回切状态。如何来衡量这些工作是否到位,确保切换成功,无疑是我们开展六西格玛的重要目标。”中国银联北京信息中心总经理郝建明解释道。

  北京信息中心按照六西格玛(D定义 M评估 A分析 I改进 C控制)过程,首先定义要做什么,确定目标。“灾备如果仅仅是为了最后的切换,那么风险很大,结果也很难控制;如果通过管控过程,做好平日的灾备工作,那么过程控制好了结果也不会差,我们把目标锁定在日常工作中。”郝建明说。

  经过评估发现,北京信息中心灾备系统每日两次固定备份分别造成系统不可用时间为84.1分钟,严重影响到系统可用率。虽然每天80多分钟并不算多,而按照六西格玛的要求,一年累计时间就比较长,项目的焦点锁定在缩短固定流程时间上。

  同时,经过数据分析,了解影响操作时间的因素主要与操作顺序有关,同时开发了内外时间转化工具。技术方面,在原有服务器中增加一台机器,保证这台机器停机时另外一台同时启动,中间没有停顿。管理上调整操作顺序,编写灾备作业指导书,并对员工进行培训,使得日常的操作流程化、规范化。

  最后,经过上述的改进,北京信息中心使单次流程不可用时间从过去的84.1分钟降低到0.9分钟,可用时间提高98%以上。“该项目的亮点在于通过系统方法,转变了灾备系统运维重点在切换的固有观念,通过六西格玛工具有力证明了灾备系统稳定运行的核心在日常维护,这充分体现了六西格玛既利用现有经验又在新角度上进行突破的核心思想。”郝建明说。

  2008年6月,北京信息中心为了更好地保障银行卡跨行交易系统安全、稳定生产,为第二代系统双活做好准备,在六西格玛第一阶段实现灾备系统平稳运行、迅速切换的基础上,针对日常维护、故障处理、研究设计等方面内容繁杂、效率不高、工作质量不稳定这一瓶颈,提出“提高灾备系统运行维护能力”项目。该项目包含“一线解决率”,以及“提高通讯网络可用性”两个子项目。

  在“一线解决率”项目中,发现现场解决率低的主要原因,一个是现场人员缺少技术指导手册,此前遇到过的问题会解决,员工自己没有遇到过的问题就无从下手。郝建明专门组织人员编写155万字的运维手册,并持续更新,经常将新的问题补充进去。另一方面,由于信息沟通不畅,一些不属于故障的问题被误判为故障,造成一线的问题解决率低。郝建明提升员工信息沟通率,最终使得一线问题解决率维持在80%以上。

  而在“提高通讯网络可用性”项目中,北京信息中心创新性地融入精益六西格玛理念。北京信息中心首先以客户为中心,发现现有的通讯网络并不稳定。虽然银行与银联的链接有两条线路,一个连接上海,一个连接北京,线路的连接设备也有两个。“但是我们发现线路经常中断,虽然不影响正常交易,但对于银行客户来说总是不放心。”郝建明介绍道。

  两条通讯线路,一条中断后,可能需要1~2天才能修好,这期间仅有一条线路通讯,对于可靠性来说是下降的。对于郝建明来说有些摸不着头脑,已经有两条线路互相备份,但为什么线路总是中断呢?而且同行业中都是这样做的。

  经过与电信运营商以及银行的沟通,发现中国银联监控端到端的数据与电信运营商数据对不上,除了检测系统不同以外,运营商的正常运维、变更在运营商自身看来属于正常情况,而中国银联却认为是中断现象,双方缺少沟通。

  此外,双方在语言沟通上也存在问题,银联报错的语言与运营商不同,双方经常因为报错语言不同,需要沟通很长时间。为此,银联与运营商合作,一方面按照运营商的语言来报错,减少沟通成本;另一方面运营商自己内部开发运维变更管理平台,解决内部线路变更的信息沟通问题。运营商更推出了“一点式”服务,银联只需要一个电话就能解决问题,避免过去多个电话寻找不同部门解决问题。经过双方努力,电信线路割接通知情况由过去的52.6%上升到83%。

  收益明显

  经过中国银联的内部初步估算,六西格玛一期、二期项目改善流程所形成的成本节约,以及提高交易成功率所增加的收益,全年共计达到人民币380万元,为成员机构带来收益约人民币800多万元。

  在客户服务方面,银联充分发挥卡组织的独有优势,有机契合银行的实际需求,持续改善跨行业务质量和效率,实现了银联和成员机构的双赢。例如,技术管理部“加强与成员机构合作,提高跨行交易质量”项目,从产业链的角度对各个交易环节质量进行控制,取得了意想不到的效果,大大提升了持卡人用卡质量。

  在运营效率方面,上海信息中心“建立业务服务支持体系项目”中(共有7个子项目),针对业务服务的现状分析发现,与清算、差错、测试、统计、参数相关的业务服务量占全部服务单的60.1%,其中,差错业务的机构咨询数量又在五项业务中所占比例最高。为此,确定了本次项目以差错业务为重点,以点带面,全面推进业务服务体系建设。

  作为第二期黑带项目,从2008年6月开始,仅仅用了半年时间就全部完成了。“我们的证书申请成功率从过去的89%提升到92%;机构信息覆盖率由67%提升至97%;有效信息比率改进了71%。更借助六西格玛制定了提高查询/调单回复率的工作模板,建立以客户为中心的长效运营机制。”中国银联上海信息中心助理总经理吴素文介绍道。

  另外,在实施六西格玛期间,中国银联将传统运维部门更名为运营部门,体现以客户为中心、满足市场需求的理念。

  在研发创新方面,2008年6月电子支付研究院将六西格玛与CMMI(能力成熟度模型集成)结合起来,对研发流程进行优化改进,通过流程制度、二次清分测试、TD事件处理三个子项目降低了研发项目管理成本,缩短了研发时间跨度。6月以来创新项目数量13个,总项目数量74个,占比17.6%,取得了一系列面向二代的技术创新成果。实施流程改进以来,二次清分共修改功能点20个,没有发生一起Bug漏到分公司的情况,功能点误测率0%。TD处理上,为了保障生产安全,实施了对所有操作命令审核机制,一定程度上增加了TD的处理周期。

  “通过标准化的测试环境控制和科学的案例审核机制,提升了测试的效率和全面性,不仅能有效分析流程的各个关键要素和可能存在的失效风险,还有针对性地制订了一系列配套的规章制度,强化了流程的可操作性和适应性。”中国银联电子支付研究院助理院长鲁志军谈道。

  在内部管理方面,技术管理部正在探索建立一个开放循环、持续改善的六西格玛管理系统,用流程规范业务运作,用指标衡量流程质量,用项目推动流程改善,把客户的满意度、各类投诉和管理中发现的问题,与相关部门的指标和流程关联起来,以项目驱动改善。“六西格玛管理体系是一个管理上的创新。它将改善对象定义为流程,将流程优劣的评判归集于指标,将流程改善的过程称之为项目,形成了三中心的开放式质量管理模式。它把目标管理与过程管理相结合,有效量化业务运作水平,并且不断挖掘潜在的或未被关注的问题。”徐燕军解释道。

  中国银联借助六西格玛改善了运营服务质量,从运营的角度出发,面向业务、面向客户开展服务,相对于从运维出发面向系统、面向自身职能的工作,是一种跨越。这种跨越不仅是服务思路的转变,更是方式和手段上的突破。

  与此同时,六西格玛正潜移默化地影响着银联的企业文化。“第一,它要求我们要持续改进,追求零缺陷;第二,定量,不管是结果还是过程,都需要定量分析,用数据说话;第三,建立以客户为中心的理念;第四,强调过程控制,如果结果控制不了就转化成过程控制。”郝建明谈道。

  “我们引进六西格玛的目的是解决企业经营的实际问题,当我们看到的问题越多、越难,有的甚至超越我们的认知水平时,各种各样的想法左右了我们,让我们迷失方向,有时会困惑、会动摇,这时候需要的是坚持、是积累,到真正从量变到质变的时候,再回头来看,一切变得清晰了,而我们也能应对更大的挑战了。”执行副总裁柴洪峰谈道。