百年交行: 我和ITIL有个约会

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:Wangqiling1116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  2004年2月14日,既是周末,又是情人节,在交通银行办公大楼里,现任交通银行数据中心生产调度副高级经理的孙莉当时正以大型机系统管理员的身份参加全行第一次ITIL培训。从那一天开始,当时正如火如荼进行数据大集中的交通银行便迈上了IT服务管理的规范之路,并从此与ITIL、IT服务管理结下了情人般的不解之缘。
  
  从一片空白到二级服务台
  
  百年交行当前的IT布局是“一部两中心”——信息技术管理部、软件开发中心和数据中心。“一部”负责全行全面的信息技术管理工作,“两中心”分别做开发和运维。交行的IT运维经历了从无到有,从逐步规范到高效运行的过程。现在,交行数据中心由8个二级部门组成,共有135人。这8个部门既有按专业技术分工的设备、网络、系統等部门,也有专门负责ITIL流程管理的生产调度部。在这样的一个机构里,就是数据中心的这一群人,用自己的智慧和汗水保障了交行IT的安全高效运行,有力地支撑了交行业务的发展与创新。
  毕业于重庆大学计算机专业的孙莉,从2001年交行筹备数据大集中开始,就参与其中,做了一段时间的大机系统管理后转到运行管理方面,开始接触ITIL实施项目,直到现在。笑称自己是“ITIL老兵”的孙莉向记者介绍,虽然现在交行数据中心一直稳定、高效运行,但其实在数据大集中以前,交行总行的IT运维是一片空白。“原来的运维工作都是各分行自己来做,伴随着数据大集中,分行的系统都集中到总行,运维的职责也就上移到总行,分行的各种问题都会报到总行。”孙莉说。
  记者了解到,数据没有大集中之前,交行总行是没有太多运维工作需要做的,也没有专门的运维管理体系,更没有专门的运维部门。但是数据大集中之后,总行要承担全行系统的运维职责,风险、责任要比原来的分行大得多,这就对交行数据中心的运维体系提出了非常高的要求——必须在很短时间内完成从无到“优”的运维体系建设。于是ITIL就被应用到交行的运维管理之中了。
  ITIL包括服务台、事件、问题、配置、变更和发布管理等的十大流程,而交行的IT运维最先应用的,也是至今应用得最好的是事件管理流程。
  最初,交行的IT运维工作是先在总行建了一级服务台,每个分行有四个报单账号,当事件发生时,分行报单给总行。对于这仅有的四个报单账号的分配,各分行做法不一:有的分行是都分配给技术人员,业务人员有需要时通过技术人员向总行报单;有的分行则是直接分配给各个部门一个账号,比如会计部、公司部等,各部门自己报自己的单。但如此一来,上报总行问题的类别、层次和水平就参差不齐,有时由于培训不到位,有很多报单问题其实是业务、流程咨询的问题,甚至还有人是报单错误。
  “总行本来人就少,如果再让这些人去忙着处理一些简单低级的报单,那就浪费了总行的资源。于是我们就把事件做了两级服务台,除了总行服务台,再以省直分行作为一级服务台,省直分行的技术部门可以在这里面做自己的分类,下面的业务部门和辖属分行就可以报到这里。他们首先会自己做一遍处理,如果说分行能解决的问题,他们就自己在分行内部解决,如果他们觉得这个问题是需要总行协助处理的问题,他们再通过这个服务台转派到总行,申请升级到总行,然后总行的人再去处理。这样可以过滤掉很多本地的问题,减少总行资源的浪费,让我们能把好钢用到刀刃上。”孙莉说。
  
  过ISO 20000 明白儿地做运维
  
  运维过程有很多问题,处理起来得分轻重缓急。交行如何对报单的各类问题进行分级梳理呢?他们将事件从弱到强分为一至五级:核心业
  做IT运维和开车一样,看着等同于油表的运维KPI指标数据,就能知道车速是多少,油耗是多少,总结出一脚油门踩急和踩缓所导致油耗的不同,进而实现持续改进。
  2002年~2006年,交通银行(以下简称交行)完成了数据大集中;2006年交行将数据中心从上海陆家嘴迁移至张江高科技园区,成功迁移100多个系统;至今,新数据中心一直稳定、高效运行……实现这一切靠的是什么?那就是,高效的IT服务管理。
  x务系统出了问题,整个系统全行都不能用的话是最严重的五级事件;某个系统不能用或者是某个分行有问题就是四级事件;一般系统出现一些交易类的问题就是三级事件;桌面、终端、打印机坏了等就是二级事件;建议类或者咨询查询类的问题就是一级事件。
  而针对不同级别的事件,他们设计了不同的响应处理流程。大量事件都集中在三级,比如网络设备出现一般故障后,报单后归入三级,一线工程师进行处理,如果还有需要就会根据分派到二线工程师,领导不需要特别关注。如果是监控或银行客户报业务系统较大故障,一线接单后就会将事件的处理过程短信通知像孙莉这样的高级经理一层的领导。“而如果发生核心业务系统故障这类重大事件的话,我们就会在数据中心大楼直接广播,通知所有相关人员到ECC(总控中心)集合,领导到位决策后按照既定流程处理,解决问题。”孙莉说。
  就是这样,交行基于BMC的Remedy平台一步步做起了事件管理、变更管理、问题管理和配置管理。而之所以会选择BMC的Remedy,参与当时选型的交行数据中心的王磊告诉记者,是因为当时国内还没有成熟产品,在横向对比了几大国际厂商的产品之后,他们发现当时Gartner的一份市场占有率的调查报告说BMC的Remedy产品在国外金融市场占有率较高,并且能够满足交行当时快速搭建快速上线的需求,于是交行选择了BMC的产品,并基于Remedy自带的灵活的AR平台,对全面的事件管理、变更管理、问题管理和配置管理模块进行了大量的二次开发,不断把自己新的管理思想在软件工具中落地实现。交行数据中心用得最好的是事件管理流程,后来他们又做了变更管理。目前他们有800多种变更分类,总共有九个控制点,排列组合出来九种路径,每一种分类指定好用哪个路径,谁负责审批谁负责实施,全都归类好。
  回看这些年来交行的IT运维管理演进过程,2006年应该算得上是一个分界点,因为在那一年,交行选择开始过ISO 20000认证。“以前,我们可能是尝试着用了一下ITIL的流程,但在2007年通过ISO 20000认证以后,我们基本上采用了一套完整的流程管理体系。”王磊向记者介绍说。
  依据ISO 20000,交行数据中心总共梳理出了13个流程,17个管理领域。每个流程中流程经理、协调人、联系人协同工作。数据中心的总经理高军曾用一个开车的比喻形象地说明了交行IT运维工作在通过ISO 20000前后的不同,“之前没有数据结果,我们完全不了解整个IT运维的效果,而通过ISO 20000认证之后,我们才知道IT系统的运行状况。这就好像开车一样,做了事件管理、变更管理、问题管理和配置管理四大流程以后,可以说我们的IT运维工作是开上车了,但我们并不知道这辆车的时速是多少,油耗是多少。但后来通过一些技术与管理的监控,我们就能拿到一些KPI指标,有了这些指标我们就知道系统的可用性是多少,每天大概故障率是多少,响应怎么样,解决率如何……”
  孙莉也打趣地说:“看着这些指标数据,我就知道我现在车速是七十迈,刚才是五十迈,油耗是多少,今天的油耗和昨天的油耗是否不同。通过不断总结经验,就能总结出一脚油门踩急和踩缓所导致油耗的不同,也就能知道刹车踩慢点,可以省油。我们做IT运维也是一样,梳理出事件、变更、问题和配置管理流程,加上一些监控,添加一些考核指标,慢慢就知道了运维工作是不是可以继续改进以及如何改进了。”
  
  以考核为翼进行持续改进
  
  ITIL是个需要持续改进的过程。2007年通过ISO 20000认证之后,交行数据中心每年都会复审,至今已经连续三次以零不符合项的成绩通过了审核。这正是他们坚持执行PDCA持续改进的成果。交行数据中心的流程回顾会每半年开一次,每次会要开上15~20个小时,会议纪要大概要整理1万字。每次回顾会上,每位流程经理要介绍那段期间流程的运行情况及效率怎么样,还存在什么问题,下一个半年怎么改进等。BMC软件公司服务顾问梅继雄在接受采访时,向记者表达了对交行出色的持续改进工作的赞赏。交行数据中心还总结ISO20000的实施经验,并撰写、公开出版了《ISO20000认证与实践》一书。
  对于接下来要改进的方向,交行数据中心已经开始对ITILV3做一些研究和培训,以便学习借鉴提高。
  “ITILV3现在有近30个流程,对我们来说,我觉得并不是流程越多越好,而是根据遇到的实际问题,看看ITILV3里面是否有内容值得借鉴参考,再去新建一个有针对性的解决问题的流程。”孙莉说。
  知识管理流程就是如此,孙莉他们正在做一个知识管理平台。孙莉介绍,原来他们并没有知识管理流程,相关的内容都在问题管理的子流程中,运行效果也一直不怎么理想,学习完ITIL V3之后,他们要新建知识管理流程,来做好系统内的知识管理。
  而在IT运维的持续改进过程中,如何得到技术人员的支持和配合、激励大家共同推动改进流程是所有做流程改进的人最头疼的问题。对于这个问题,交行数据中心开出的药方是绩效考核。考核就是指挥棒,它能规范、引导员工的工作。2009年,数据中心把原来考核全数据中心的一个可用性指标拿出来,细化分解为每一个二级部门的考核指标,占年度绩效考核的20%。如此一来,大家就很关注这个事情,会想法设法地解决问题,保障系统的可用性。采用这一方法,交行数据中心2009年各系统的可用性达到历史最好水平。目前,他们将尝试用更精细化的管理指标推进流程管理的各项工作。
  如今,在“一部两中心”的IT布局下,借鉴ITIL V3,结合自身的需求与实践,数据中心将把百年交行与ITIL的约会进行到底!
其他文献
电子商务企业和物流企业的融合是必然的,虽然过程也许很漫长,但它们终将结合在一起并形成相对稳定的市场格局。  ——本报记者王娟    天下大势,合久必分,分久必合,亘古不变。百货商场与专场店便是典型例子。IT界当然也遵循这个规律。  目前,电子商务领域正呈现出这种分久必合的趋势。原来的“专场店”如当当网、京东商城正纷纷向“百货商场”转型。此外,一种更高层面上的“合”也在暗流涌动:从去年开始,第三方物
最新的《诺顿网络犯罪活动:对个人的影响》报告,对超过7000名全球网络用户进行了调查,揭示了网络犯罪活动对个人造成的不容忽视的损失,并首次研究了网络犯罪活动对个人情绪产生的广泛影响。结果表明,受害者最强烈的情绪反应是生气(58%)、苦恼(51%)和受骗感(40%)。然而,多数情况下,他们将遭受攻击归咎于自身。只有3% 的用户认为,网络犯罪不会发生在他们身上。近 80% 成人认为,网络罪犯得不到应有
开放22nm先进制造工艺为Achronix代工FPGA芯片,英特尔不仅充分利用产能摊薄成本,为提高自身产品销量铺好了路,更为有选择地开展代工业务释放出了信号。——本报记者 刘洪宇     英特尔做了一件前所未有的事——与Achronix半导体公司达成协议,将以22nm制造工艺为其代工FPGA(可编程门阵列)芯片。  说前所未有,并不是英特尔初次为他人代工,也不是因为代工对象是一家规模尚小的新公司。
魏英东,安徽电视台安徽广电信息传播有限公司副总经理、安徽省中小企業服务中心信息化顾问委员会总顾问、安徽富煌集团IT总监,信息化从业经验丰富:1998年,在鹰牌陶瓷负责实施ERP系统SAP R/3软件PP、MM业务模块,培训电脑用户。2000年,在飞歌空调负责组建企业局域网,实施财务电算化系统,开发人事管理信息系统等,并培训电脑用户;在协力仪表负责组建企业局域网和培训电脑用户。2002年,在洽洽瓜子
由于突破了传统机械硬盘的悬臂寻道、静默等待等性能瓶颈,固态存储的时延性得以极大提升。今天,一块2.5英寸的SSD,依靠很小的响应时延,就可以让随机读写IOPS (Input/Output Per Second)达到60~100 K。  正是因为这些特性,固态硬盘市场在最近几年表现迅猛。2010年全球SSD市场营收强劲增长98%,达到了24亿美元;NAND Flash市场营收增长43%,达到了200
凭借在Web应用安全及漏洞扫描技术上的不断摸索与创新,安恒信息明鉴Web弱点扫描器再次升级,新版本MatriXay 5.0于日前问世。  专注于Web应用安全的安恒信息本次发布的MatriXay 5.0贴合用户不断变化的需求,以精确的取证式扫描功能为最大特色,同时还提供了强大的安全审计、渗透测试功能,误报率和漏报率等各项关键指标均达到国际领先水平。  与之前的版本相比,新版本在产品的功能及特点上都
苹果放弃在iPhone上使用Flash,這也许是RIA平台陨落的标志。——尼尔·麦卡利斯特    当苹果CEO史蒂夫·乔布斯的公开信发表后,Flash已经没有可能应用在iPhone或iPad上。  Flash及其Flex和AIR是时下最流行的RIA平台技术。Flash更是自称拥有超过90%的PC用户群。事实上,即便RIA技术已经相当成熟,但它却从未被主流用户所垂青。原因在于它存在包括插件安装及运行
美国康普SYSTIMAX GigaSPEED X10D屏蔽解决方案专门采用性能更强的线缆与连接件,能够满足最新的10Gb/s网络传输需求。凭借康普实验室的专有技术及科研实力,该解决方案具有远高于传统屏蔽解决方案的信道性能,其创新的工程技术可满足ISO/IEC 11801 Class EA 和ANSI/TIA-568-C.2-10 Category 6A标准对特定信道的要求。  SYSTIMAX G
最近,就数据库有关问题,2011 IBM DB2迁移之星大赛评委、DB2资深顾问王飞鹏接受了《中国计算机报》记者的采访。  王飞鹏认为,过去20年,大型数据库产品厂家越来越少,到如今就处于Oracle与IBM两强争霸的时代。IBM和Oracle不仅产品线越来越相似,而且都在提高软硬件整合的速度。整合给用户带来的好处是效能的最大化,尤其是软件、硬件、应用的垂直整合更能将效率发挥到极致,但这样的整合也
云快线科技公司(CloudEx,以下简称云快线)正式宣布解散。这是流言!  实际情况是,云快线从来没有通过官方途径宣布过公司解散的消息,不过云快线确实中止了一切与客户有关的对外服务,而把全部精力放在了云计算平台的研发上。云快线原来的用户可以根据自身的实际情况选择与云快线解除服务合同,或选择像世纪互联等其他的服务商。目前,云快线只保留了研发团队。  铩羽而归  近日,一篇题为《云快线黄了 云计算泡沫