进击的APM,打造未来企业核心数据管理平台
APM = Application Performance Management,应用性能管理,对企业系统即时监控以实现对应用程序性能管理和故障管理的系统化的解决方案。应用性能管理主要指对企业的关键业务应用进行监测、优化,提高企业应用的可靠性和质量,保证用户得到良好的服务,降低IT总拥有成本(TCO)。一个企业的关键业务应用的性能强大,可以提高竞争力,并取得商业成功,因此,加强应用性能管理(APM)可以产生巨大商业利益。
在大数据与云计算充斥的今天,APM也需要不断的进步发展。今天记者接触到了国内最早开始做APM的厂商——云智慧,和云智慧CEO殷晋先生进行了一次深入的沟通,了解目前云智慧在大数据以及云计算时代的解决方案,以及他们的产品技术遇见的坑与挑战。
云智慧CEO殷晋(2005年研究生毕业于清华大学软件学院)
CSDN:请殷总首先来谈谈您自己的职业经历,您是怎么走近APM这个行业的呢?
殷晋:我是05年清华毕业,当时已经在清华的一个实验室做了一年多的研究了,不过在学校做事情总是感觉没有冲劲,没有一种努力下去的动力,感觉很不爽。后来我就离开了清华出来做应用系统管理这块,当时的应用性能管理主要功能如下:1、监测企业关键应用性能:过去,企业的IT部门在测量系统性能时,一般重点测量为最终用户提供服务的硬件组件的利用率,如CPU利用率以及通过网络传输的字节数。虽然这种方法也提供了一些宝贵的信息,但却忽视了最重要的因素--最终用户的响应时间。现在通过事务处理过程监测、模拟等手段可真实测量用户响应时间,此外还可以报告谁正在使用某一应用、该应用的使用频率以及用户所进行的事务处理过程是否成功完成。2、快速定位应用系统性能故障:通过对应用系统各种组件(数据库、中间件)的监测,迅速定位系统故障,如发生Oracle数据库死锁等问题。3、优化系统性能:精确分析系统各个组件占用系统资源情况,中间件、数据库执行效率,根据应用系统性能要求提出专家建议,保证应用在整个寿命周期内使用的系统资源要求最少,节约TCO。但是随着云计算和大数据的发展,传统的APM在数据分析方面,支撑的粒度以及程度参差不齐,而且基于SaaS的APM市场更是一片空白,IT运维管理人员对于当时的工作内容和环境非常不满,统的IT运维管理模式亟待创新,我觉得这是我的一个机会,我希望通过基于SaaS的APM将IT运维人员解放出来,于是我当时参与创立了云智慧这家公司。
CSDN:您认为这个行业目前的技术门槛在哪里?
殷晋:首先我觉得这个东西的门槛还是蛮高的,有的人可能在想这有什么呀,不就是收集数据,分析数据么?我们公司的开发人员也可以做到这一点。但是可以想一下,一个公司如果没有APM的话,客户提出一个问题“你们下订单怎么这么慢?”此时就需要开发、运维的同学去花费大量时间去看日志,而问题也不一定能够解决。因为IT系统和人一样,只有在特定的环境下才会出现种种问题,当这种环境消失以后,你就很难拿查处问题发生的原因了。所以我们需要哪些技术呢?
第一:全面的监控的能力。1、必须实时监控企业的所有环节。比如说网络、存储、数据库、防火墙、CPU、磁盘、内存等等,所有你使用的设备包括软硬件都必须监控起来,这些东西都可能影响到你的系统性能;2、对于外网的监控;3、用户数据的监控,除了用户的基本信息,还需要做到用户代码级的监控。
第二:数据的收集能力。比如说你做SaaS平台,你用户做一个APP,有一亿的用户量,你收集这一亿用户的数据,就需要他们每秒和你进行通信,于此同时你其他的成百上千的客户,他们的用户你也需要收集数据,这个时候你每秒需要处理的信息条数,将会是一个天文数字,你的IT架构不一定能够抗住这种数据量的。
第三:数据的处理能力。大家都知道,数据收集过来以后应该进行数据分析,但是怎么去分析、怎么去建模,这些事运维和开发人员很难做到的。
所以总结一下要做APM有三个门槛,首先需要全面立体的监控;其次,收集海量的用户信息;最后,通过建模进行数据分析处理。目前云服务遍地开花,国内的一些厂商都在做APM服务,但是这些同行目前提供的更多的是监控服务,他们还处于第一个层次。并不能完全满足用户的深度需要。
CSDN:你们宣称是智慧的APM,这个智慧主要体现在那里?对于企业来说,智慧APM可以给企业带来哪些价值?
殷晋:智慧这个东西,说起来挺难的,其实什么叫智慧呢?西方有一种人叫先知,大家是不是觉得先知很有智慧,就是因为先知能够预测到未来将要发生的事情。我们做APM也希望达到这样一个目标,可以帮助企业进行一些预测。因为目前企业中当你的用户或者监控系统告诉你系统宕掉、或者变慢了,你去处理问题,但是此时已经给企业带来损失了。举个例子:顺丰,大家应该都知道。大家都觉得它是一家快递公司,其实我觉得它更像一家IT公司,因为顺丰的核心服务能力是通过IT系统来传递给它的用户的。如果顺丰的IT系统性能降低10%,一天将会损失几十万订单,这些订单造成的损失是巨大的。如果我们能够防范于未然,比如说随着你业务量增长,我会告诉你,你整个IT系统哪些环节会有问题,如果你不改造的话,什么时候系统会垮掉。而且我们做的预测和传统的运维预测是不一样的,传统的运维预测只是根据一些CPU、存储等硬件来做预测,这些是远远不够的,我们能够做到在硬件检测的基础上,检测软件的性能,代码的性能,做到一个真正的基于大数据的预测。
简单来说我们的监测可以分为三个层次:
一是IT运维可视。在比如用户在前端某个商城下单,而这一操作产生的是整个数据的流动和IT响应的过程。云智慧通过一个人工可视化的方式使其能够被看见,然后通过数据分析发现问题的存在。
二是运营风险可控。有一个较为典型的案例,去年某化妆品知名电商,在促销期间投入几千万引来流量,但是网站本身崩溃,不仅成本赔掉,用户口碑也受到严重影响。殷晋表示,类似的运营风险之所以未能及时控制住,是其后台的数据不被人所知。透视宝这一款产品,就是通过历史数据、增长趋势,预测风险的在哪些点,是否会爆发崩溃,该如何改进。
三是业务增长可期。通过IT运维的数据,洞察业务的趋势。甚至在基础设施层面问题解决的时间较长和难度较大时,选择其他方案,比如,在产品设计的角度,上个例子就可以在单流程做改进,从而将风险和损失降到较低水平。
CSDN:目前的APM最大的挑战是什么?云智慧在这些方面有什么应对之策?
殷晋:对我们来讲,APM这个产品做到最后其实就是一个大数据的分析处理产品。所以未来还是有几方面需要改进的地方。
第一,我们的海量数据处理能力,因为我们的数据处理速度越快,我们的用户也就越多,因此我们需要一个弹性的基础设施,目前我们准备放在云上。
第二,大数据模型的优化。我们会不断的优化我们的数据处理模型,同时增强机器的自助学习能力,因为技术的研究是没有尽头的,我们在这方面会不断的进行投入。
第三,市场的压力。因为APM最终的演化,肯定会成为一个企业中最核心的应用,成为企业的一个大数据管理平台。此时我们可能需要面对市场上一些软件厂商的压力。
CSDN:公司未来有什么规划?在你看来APM未来发展方向如何?
殷晋:公司的未来将向企业大数据服务商的角色演变,APM是我们基于企业应用的性能数据推出的第一个大数据应用。未来我们的大数据平台上将接入更多的企业业务数据,推出更多的企业级大数据应用。
应用性能管理需求将成为一个企业在发展过程中刚性需求,各行各业的企业都会需要专业的第三方APM服务,所以未来APM的发展空间非常大,在整个云计算领域,可能会是和IaaS规模相当的一个市场。
转自 CSDN 2014年8月25日