大型集团公司如何保障网络性能?联想IT网络性能监测智能化转型

  • 首席数字官

  • 2018-12-29

  • 来源:


文丨徐达     编辑丨鹿普禾

来源丨首席数字官

2018年11月22日,韩国亚马逊网络服务公司遭遇一小时的网络故障,导致韩国主要在线购物中心和加密货币交易所的服务暂停;11月28日,百度旗下多款产品出现无法访问的情况,包括百度App、百度网盘、百度图片、百度视频等均显示网络异常。

信息时代,网络就如同维持企业“躯体”正常运作的“神经脉络”。对制造企业智能车间而言,网络的状况直接影响生产线生产及排产的连续性;对大型跨国企业集团而言,网络的状况直接关系协同的效率;对网络服务提供商而言,故障就意味着商誉受损。联想集团如何提高IT网络性能,促进监测的智能化转型?联想集团IT监控经理胡永(Allen Hu)接受了「首席数字官」的采访。

同时,联想的IT网络性能监测方案在“2018数字化转型与创新评选颁奖典礼”上荣获“数字化技术应用典范”奖。

图片3.png 颁奖典礼现场

图片来源:首席数字官 

联想网络性能监测智能化转型背景

“联想的网络规模大,情况复杂,在全球有多个数据中心,每个地区的公网、网络环境都不一样。”胡永说。据了解,联想作为全球化企业,其集团的业务规模已遍布全球160多个国家和地区,全球员工人数达5.2万。而在为业务运营提供技术支撑的IT基础设施方面,联想则拥有多个数据中心,200+分支机构,近百条MPLS线路以及近万台网络设备的庞大规模。

针对如此复杂的网络环境,IT运维实际上无法做到对每一个应用都进行具体关注。通常情况下,IT从网络流量的视角去监测所有应用的整体性能,或是重点关注某些关键应用服务器的流量,或使用网管系统,设备上的NetFlow功能等等。多数情况下,这种分析方法只能反映网络和应用的整体运行状况,难以对网络应用的各种异常和故障行为进行精准定位和排除,因为其隐藏在海量数据中,且不断被更新覆盖,难以发现,原始网络数据也因未被保存而无法进行回溯分析。

在部署Riverbed SteelCentral解决方案前,使用者将发现的网络问题反馈给IT部门之后,IT人员很难发现,由于无法回溯,只能等到再次出现问题时进行分析,但又难以保证下次出现的问题与上次发生问题的原因一样。就如同某个时间点发生了交通拥堵,事后要分析为什么发生了拥堵,如果有视频监测,可以通过视频回放进行原因判定,如果没有监测,就难以进行及时准确的判定。由于当时监测工具功能有限,缺乏全面的网络与应用可视化的性能监测能力,使其难以及时发现并解决问题,因此,IT部门迫切需要一种能可视化数据并可追溯问题根源的工具。

“人工+智能”是联想网络性能监测智能化的关键

为了有效解决问题,联想IT监控团队希望尽快找到一种新型的性能监测工具,并建立一个能够覆盖全球,可完整采集网络流量并进行分析的平台,同时也希望构建一个以业务系统为核心,涵盖客户端、网络和应用的端到端综合性能监测平台,以加快网络性能故障的定位与排除,保障关键业务应用的稳定运行。

在需求明确的前提下,联想IT监控团队于2015年立项并调研,同时也进行了PoC测试(验证性测试),划定一个小范围的实验对象,通过小范围的项目导入与实施,在真实的业务场景中验证系统方案是否能满足需求,从而做出更客观准确的判断。经过多方对比和验证,联想决定选择Riverbed SteelCentral网络性能解决方案,并于2016年开始在全球网络中进行部署。截至目前,已成功运行两年时间,获得了运维团队的高度认可,监控团队的价值也得到了进一步体现。

在部署AppResponse解决方案后,监控团队与网络团队,以及其他运维团队一起,可以从网络层面深入分析各应用对性能的影响。当通过网络交付的关键应用出现问题时,能够下钻进行问题分析,实现快速分段定位及排障。该方案的历史数据回溯分析功能,也帮助联想解决了无法重现历史问题的困难,非常有助于偶发事件的捕获,从而在终端用户感受到问题影响之前快速发现并排除故障。

胡永表示,智能化的系统和技术是有效解决问题的重要手段,但终究离不开人的作用。通过NPM工具解决了数据的可视化和可追溯问题,但是很多指标、数据摆在面前,怎么分析出原因,依靠的是人,是专家的能力。另外,这不只是买一个工具,部署好,收集数据就够了,还要配合相应的流程,比如什么情况下需要人的介入,或者哪个团队需要用到这个工具等等。

胡永还强调,IT问题的解决需要各团队协作完成,大家都会使用NPM 方案,来共同解决问题,所以NPM是基础工具。

智能化监测凸显IT部门价值

胡永认为,IT网络性能监测智能化带来的一个好处就是改变了IT部门原来被动的地位。以前,业务部门或者客户遇到问题,不管是网络、应用还是第三方原因,大家都会先找IT部门帮忙解决,然后IT部门再根据实际情况进行根因分析。这使得IT部门总是在被动的响应需求、解决问题,且在解决问题时缺少主动权。

现在通过智能监测工具,当客户、业务部门提出问题时,IT部门可以立刻调用数据,并分析问题背后的原因,变被动为主动。在这个过程中,一方面是解决问题能力的提升;另一方面是工作流程的转变,工作流程的转变带来的是发现问题、解决问题效率的提升,同时客观的数据为快速分析原因、有效解决问题提供了有力支撑,问题的解决率得到明显提高;第三,随着越来越多的应用进入公司网络,借助SteelCentral平台,监控团队能够对新应用、新服务在上线前进行分析与验证,令性能问题提前得到解决,进而减少上线后不必要的成本支出,这也是IT监控部门在企业发展中不断提升自身价值的重要体现。

当谈到联想IT网络性能监测的发展方向时,胡永表示,未来首先要做的是继续优化流程,并进一步推广,另外就是精细数据收集的颗粒度,以便更清楚的定位问题,目标是更好的把工具用起来,更多的产生价值和效果。

  • 案例
  • 制造
  • IT/互联网
  • CEO
  • CTO
  • CIO
  • 生产制造
  • IT
  • 区块链
  • 大数据
  • 物联网

推荐

我要评论