|
在业务层面,信息化需要支撑业务发展,满足客户服务需求,在技术层面,保障系统安全稳定运行,无论何时都是一个重大且艰巨的任务。
1995年,25岁的崔可升大学毕业,随即进入电信计费领域工作。两年后,崔可升迎来了自己职业生涯的第一个起跳点,即参与到山东省日照邮电局的“九七”工程建设中,由于这个项目信息化起点非常高,加之崔可升又表现得非常出色,因此,崔可升当年即被上调山东省邮电局,从此便在山东移动信息化领域一路耕耘,发展至今。
目前,崔可升主要负责山东移动业务支撑系统(简称BOSS)系统的规划、建设和维护。和很多CIO一样,管理和技术是崔可升工作内容中不可分离两项内容。在他看来,技术是为管理服务的,如果没有相应的技术背景,管理工作很难有效推进。对于山东移动信息化的建设重点,崔可升觉得主要是支撑业务发展,满足客户服务需求。从技术上来说,保障系统安全稳定运行,无论何时都是一个重要且艰巨的任务。
十二年三阶段
作为山东移动账务中心的副主任,今年38岁的崔可升已经在山东移动扎根了12年。“记得1991年调来省邮电局时,山东移动还处于省邮电局移动通信分局状态,那时移动还没有从邮电分离出来,相应的信息化建设就更无从谈起了。”崔可升感叹道。
如今,12年过去了,山东移动的信息化建设从分散到集中,从无序到有序,经历了一个稳定持续的渐进式发展。在崔可升看来,这个过程可以一分为三。
从1991年到2002年,山东移动基本处于计费系统集中、营业系统分散的状态。虽然计费处于集中,但那时的计费业务远没今天这么复杂多样,而是非常标准且简单,比如主叫0. 元每分钟,被叫0.4元每分钟,如此而已。
从2002年到2005年,随着移动用户数量的飞速增长,山东移动的业务需求开始不断涌现,于是开始着手业务系统的集中化建设。比如以前分散在各地市分公司的营账系统现在开始往省公司集中。
然而,由于经验不足,很多业务系统集中后变成一个无比庞大的系统,IT人员如何管理和控制并无经验可借鉴。比如业务高峰期时该如何运维,业务低峰期该如何处理,这些问题都得工作人员不断摸索。既然是摸索中前进,也就难免时常会出点宕机方面的小问题。“整体而言,这一阶段的信息化建设处于磕磕碰碰的状态。”
而从2005年到现在,在经历了上一阶段的摸爬滚打之后,人员队伍逐渐完善,各方面经验从无到有逐渐累积,山东移动的信息化建设开始步入正规有序的快速发展状态。
目前,山东移动账务中心已有30多人,分为生产室、研发室、维护室、数据室,业务支撑范围包括BOSS、经营分析系统、客服系统等。从数据中心配置上而言,目前拥有小型机数量在400台左右,存储容量在4000TB,设备规模较大。目前,客户和业务数量发展迅速,成比例地增加人员是不现实的,于是,通过系统的自动化、智能化水平的不断提高,降低对人员数量的依赖成为运维管理的重要内容。
遭遇“黑色元旦”
回顾过去的信息化历程,崔可升曾做过多年的软件开发和系统维护工作,其间发生了对其个人影响最大的一件事情,这件事就是发生在2004年元旦的业务支撑系统运行效率问题。
“这次事件可以说对我刻骨铭心,事件发生后,我对该问题的态度和认识也在不断变化,自己的管理水平正是在这样的教训下不断提高。”
事件的发生是这样的。2003年12月30日晚上,山东移动BOSS系统扩容工程上线了,扩容工程是新建了一套数据库,将原有的营帐数据库迁移到新采购的处理能力更高的硬件系统中。在12月31日这天,新系统的运行基本平稳,没有出现大的问题。到了2004年1月1日上午,按照惯例月初第一天会出现业务高峰期,尤其是上午,就是在这时,系统运行效率变得非常缓慢,系统出现了严重的阻塞,导致前端营业厅办理一件业务花费时间非常长。
更加麻烦的是,当时营业厅外正在进行元旦节日促销活动,吸引了大量消费者前来咨询办理业务,营业厅一下子变得人满为患,场面非常狼狈。
这时,山东移动几个后台工程师人员正在紧张地实施应对措施,重启数据库后发现没有效果,系统阻塞了再重启,紧急联系数据库厂商人员,然而节假日期间人员协调非常困难,经过紧急协调,工程师到中午左右时终于赶到现场。经过诊断后,发现系统阻塞是由于集成商人员在创建新数据库时,一个数据库参数设置有问题,在压力较大时,出现资源争用,运行效率下降,导致了事件的发生。于是,工程师通过修改数据库参数后,营业系统随即恢复正常。
后来,这次有惊无险的事故在山东移动被称为“黑色元旦”。虽然,公司领导到现场对崔可升及其工作团队的多日辛苦加班表示了慰问,但对账务中心的管理水平提出了批评和更高要求,要求账务中心尤其是部门领导要提高管理水平。
提高风险强化管理
“当时,我作为一名技术骨干,公司领导没有对我们这个‘层次’的技术人员提出批评,但我如同部门领导一样,内心委屈,辛苦多日的加班割接,换来的是这样的结果。”崔可升当时的想法就是这样,“这件事情很明显是一个技术问题,是开发商技术人员一个参数设置不正确,如此一个‘偶然问题’,怎么能说是管理问题。”
山东移动BOSS机房下面就有一个主营业厅,故障发生时,崔可升也多次到营业厅了解运行情况,看着营业厅人员在做着耐心的劝导工作,当时崔可升的内心真是汗颜,用无地自容来形容再恰当不过了。“发生这样的事情,是每个人都不希望看到的,作为公司领导、部门领导、技术人员,怎样才能避免这类‘技术’原因造成的‘偶然’现象再次发生?”这次故障发生后,崔可升一直在思考这个问题。
经过长期的思索,崔可升逐渐改变了原来的“委屈”态度,转而认识到,出现这样的技术性“偶然”问题,公司领导说的没有错,那次故障外表看似是一个“技术”问题,归根到底还是一个“管理”问题。
如果能对新系统上的参数与旧系统进行核查,如果能在系统上线前做充分的压力测试,如果在系统割接上线前要求数据库厂商人员到现场并做检查,如果……“如果我们做了其中一个‘如果’,系统就不会发生‘黑色元旦’的故障。”崔可升表示,“没有做就说明我们安全风险意识淡漠,管理不到位、不规范,这就是造成故障的根本原因。管理不到位,偶然事件就一定会成为必然事件。”
自此以后,山东移动账务中心在任何工程割接中,都把“黑色元旦”事故作为经验教训牢记于心。时刻提醒工作人员,风险要控制,管理要规范,力求做到万无一失。事实上,崔可升及其账务中心工作团队的风险意识不断加 强,系统割接风险大大降低,系统运行稳定性也大大提高。
创新“话单采集模式”
在多年的信息化工作生涯中,崔可升主持实施了多个业务应用系统,其中印象最深的是2002年的全省交换机网元话单信息集中采集项目。这个项目不是很大,但是对提升整个计费系统的计费及时率发挥了关键的作用。
原来,传统的话单采集系统是分散采集模式,通过在交换机侧建立一个采集机,交换机等网元产生的话单先采集到本地侧的采集机,然后在传输到省公司的计费系统,环节多,并且没有有效的监控手段来监控采集的及时性。
于是,崔可升提出采用全省集中的新的采集模式,将分散到各个地市分公司的网元话单直接采集到省公司。与之前的传统模式相比,这种模式表现出四个方面的特点:其一,采集模式由原来的分散多级采集变为直接的集中采集;其二,采集系统维护模式分省、市两级,且维护管理界面清晰;其三,提供了有效的监控、短信告警等告警方式,且告警是智能化的,可直接将定位的故障情况报告出来;其四,采集后即可获得话单里的通话时间,做到采集时间可控。
应该说,这种模式当时在业界还属首创,然而新鲜事物的被接受总不会一帆风顺。所以,崔可升最初提出这种采集模式方案时,并没有立刻得到认同。由于担心连接地市和省公司的网络会出现问题,从而导致对系统造成影响,于是领导和同事更多表示反对或怀疑。
不过,经过崔可升多方面的解释和反复沟通,最后还是得到了各方面的认可。很快,新的采集模式立刻开始部署实施。通过实施新的采集模式,话单采集周期及时性由原来的几个小时到30几小时,缩短至2分钟以内,欠费率大幅降低,每年为公司节约了几千万元。系统投入运行后,稳定可靠,监控手段先进,节约了维护人力资源。更让崔可升欣慰的是,新的采集模式在山东移动实施成功后,逐渐在业内得到传播和推广。
提高客户服务满意度
事实上,在各行各业的信息化建设进程中,电信行业的信息化水平是走得比较靠前的。作为一名在电信行业耕耘了多年的信息化人员,崔可升也总结了自己的看法。
在他看来,电信行业这几年发展异常迅速,用户数量和业务量大大增加,如果不提高信息化水平,可以说就无法进行良好的客户服务。
所以,业务驱动要求信息化水平不断提高;其次,电信行业相对来说与计算机关系密切,因此该领域的信息化水平起点较高,还有,电信行业的服务水平要求较高,这对信息化的发展也提出了较高的要求,同时也为信息化发展带来了契机。
总体而言,“目前电信行业的信息化水平,处于从满足业务需求向提高系统运行安全阶段过渡。有些企业走得快点,有些走得慢点,这就与企业的安全意识、财务状况、人员状况等因素紧密相关。”崔可升如此总结。
应该说,在电信领域中,业务支撑系统(BOSS)在客户发展、客户服务、公司营收、经营分析等环节发挥了越来越重要的作用,可以说,如果没有业务支撑系统,将不可想象。正是由于业务支撑系统的重要性,从而带来了公司对崔可升所在的账务中心部门的重视。“不过,业务支撑系统的重要性,也对帐务中心的建设、维护和支撑团队来说,压力也是非常大的。”崔可升坦言。
因为山东移动目前的发展主旨,就是不断提高客户服务满意度。而这个满意度是否满意,就涉及到整个移动业务运营的方方面面。
回想五年前,如果系统出现问题导致业务停滞,移动公司还可以贴出一张“停业通知”,告知客户什么时候开业。而现在,这种方式几乎是不被允许的,因为移动电话的使用量非常巨大,不是说想停业就停业的,否则会给无数造成难以估量的损失。所以,崔可升只有带领团队不断完善运维效果,从而保持业务连续运营,如此才能提高客户服务的满意度。
确保系统安全稳定
在提高客户服务满意度的过程中,崔可升最主要的工作就是推进BOSS系统的灾备建设。然而,这个灾备建设过程也分为三个过程,由简单到复杂,由低级到高级,不断在深入。
2003年,山东移动完成了BOSS系统的集中化。由于全省的系统都集中在省中心,系统风险也因此加大。虽然当时山东移动意识到了需要针对系统风险做点什么,但具体如何搭建容灾系统并不明确,于是为了确保业务运行的连续性,山东移动当时做了一些简单的应急部署。
到了2005年,山东移动开始规划性地部署主备级容灾系统。主备级容灾系统建设运行后,BOSS系统的容灾能力和系统抗风险能力得到大幅提升。但也存在一些问题:在应对业务高峰期等非灾难状态时,备份中心不承担生产任务;软件版本状态难以进行验证;灾难发生进行容灾切换时,业务影响面大。
于是,从200 年开始,山东移动开始考虑建设双中心容灾系统。然而,随着山东移动用户数量的迅速增加,崔可升觉得可以把系统风险再度细分,决定再建立一个物理中心,采用三中心的方式共同承担系统运营。
目前,山东移动虽然已实现了三中心的容灾系统,但这三个中心目前都是同城的,系统风险依旧集中在一个城市的“大篮子”中。于是,崔可升透露,山东移动接下来开始规划建立一个异地远程数据级的终端作为灾备中心,从而达到两地四中心的模式,到时候,保障业务持续运营就更加高枕雅宝题库交流了。
转载注明来源:http://www.ybaotk.com |
上一篇:地理信息系统融入一体化电网平台下一篇:管控一体化:把信息精炼为情报
|