中国正在拥抱人工智能大潮,不仅大学开始增设人工智能专业,中小学课堂也纷纷引入人工智能课程。
9月16日,世界人工智能大会举办前夕,澎湃新闻记者在上海专访了卡耐基梅隆大学计算机科学学院教授邢波(清华物理系88级)。对于人工智能在中小学阶段的教育,他持谨慎的态度。在他看来,初等和中等教育最主要的不是灌输知识而是培养思维方法。
邢波,生于上海,成长在北京。清华物理学毕业后赴美修读生物学博士。随后进入加州伯克利学习计算机科学并取得博士学位,五年内成为卡耐基梅隆计算机科学学院教授,专注于机器学习与统计方法的相关研究。
卡耐基梅隆大学计算机科学学院教授邢波接受澎湃新闻专访,谈人工智能。澎湃新闻记者 吕啸 图
邢波还是卡耐基梅隆大学机器学习系副系主任,美国人工智能学会会士(AAAI Fellow),美国新泽西州立大学分子生物学与生物化学博士和美国加州大学伯克利分校(UC,Berkeley)计算机科学博士。
谈到AI人才的培养时,邢波提到了他所推崇的“解决问题”的思维:你需要解决一个问题,而且这个问题要解决得“纯粹、彻底、漂亮”。学生不能为了证明一个理论而证明一个理论,也不能为了做一个好看的工具而去做一个好工具。关注的重点应该是能不能解决具体的问题。
一个一流的研究人员应该“既能够大智若愚,有淡定的劲儿,又敢于挑战权威成果,去开拓新的题目,不随大流,去做他认为有价值的、甚至是冷僻的题目”。
专访中,他对人工智能在医疗领域的发展前景、人工智能的教育问题、人工智能科学家的创业现象做出了探讨。
他提出,目前人工智能在医疗领域的展示很有误导性。医学人工智能与医生之间不是竞争关系而是协作关系,人工智能能够极大地提升医生的效率,但绝对不是替代医生。部分计算机科学家缺少对医学的敬畏和理解。
在谈到目前的人工智能是否真的“智能”时,邢波认为:科学是要解决问题,而不是去达到某一种境界。对于“人工智能是不是需要跟人很像”这个问题,他个人持保留态度,“即使人工智能以后跟人不像,也并不会失去它的价值”。他认为,应把人工智能跟人的形象和功能脱离开。
在他看来,以目前的技术手段,甚至以可预见的技术手段而言,人工智能不能跟人的智慧相提并论。与人相比,机器不会提出探索性的问题,没有“自知之明”,且十分依赖数据。但人作为一个机械的定义而言,组合非常完美,能耗、可靠度、稳定性,适应力,比任何机械都要好。
对于近年来的AI热潮,他谈道,由于媒体效应和其他关联事件,人们对AI的重视度提高了。但也许之前人工智能也很热,只是我们没有生活在那个年代,没有看到罢了。
他认为围棋被AlphaGo击败与卡斯帕罗夫被深蓝击败,在技术上并不是一个本质性不同的事情。现在我们有了更强的计算资源,有了一些算法上的进步,在完全有明确规则、确定结果,可预测、过程透明的游戏里边,人被机器击败是一个非常可预见的结果,“以后任何一个这样的游戏中,人都会被击败”。
至于大学教授创业,他认为不能一刀切,应该给予自由的环境,让大家找到适合自己的舒适空间。
2016年,邢波在美国匹兹堡创立大规模机器学习平台公司Petuum。一年后,该公司筹集到由软银领投、尚珹资本(Advantech Capital)跟投的9300万美元B轮融资。
邢波参加2018世界人工智能大会。澎湃新闻记者 吕啸 图
以下内容为专访实录:
AI进课堂:教什么,怎么教,什么时候教,这是个全球问题
澎湃新闻:近年来,中国教育部有关于人工智能的一些规划,高校也开始推出一些人工智能的课程。您是学界出身,对中国的AI教育有什么样的建议?
邢波:AI教育这个问题实际上是个很普遍的问题,是个全球问题。大家都还没有太想清楚AI这种东西应该怎么教,应该什么时候教,教什么。我看到过有一些很有趣的例子,比如说有些(地方)甚至高中都已经开始教AI了,然后教的是一个深度学习的东西,这都是很有意思的探索。我个人觉得,你看我们在教物理、数学或者其他科学的时候,我们可以看到小学、初中、高中都教什么东西,对吧?初中教的牛顿定律是三四百年前发现的,已经搞透了的、完全了解的、毫无疑问的一些原则和准则,然后越往上以后,教一些更加先进,更加难的,然后甚至是一些不太肯定的开放的问题。人工智能也应该大致尊重这样的逻辑,应该先从基础开始教,从基础的数学原理,然后一些基本的算法,像决策树、回归、递归等方法。
所以说,教育的整个原则和过程,需要做一个完整的思考,而不是为了教育而教育,为了去让大家了解而了解。我觉得在高等教育里面,至少卡内基梅隆大学是一个比较成功的例子。我们学校在人工智能高端人才里是占据了相当大的垄断地位的,因为我们有一个机器学习系。它在整个的教案和教学内容里面做过相当严肃和完整的思考,需要什么样的基础课,需要什么样的中级课、高级课,然后需要什么样的辅助课程、外延课程。这实际上都是有一套东西的,而不是好像抓了几个东西以后给它捏起来。这一点我觉得值得各个学校来借鉴。当然这实现起来有难度,因为它需要比较强大的师资力量,是一套比较齐全昂贵的人马,不太容易在每一个学校里面都能凑足。但是我觉得这个思路是值得借鉴的。
至于在本科、在中学,人工智能是不是需要教,怎么教,我个人觉得还是应该谨慎。因为我的感觉,对于初等教育和中等教育,最主要教的不是知识,而是思维方法。你应该懂得逻辑思维能力,懂得去挑战权威,懂得自由思维,或者是独立思维。这些东西其实用很多方法,很多教学内容都可以达到的,而不是靠给你灌一点专业知识。专业知识过时地很快,有个几年的话基本上就陈旧掉了。深度学习这个东西,比如说在三年前跟现在就很不一样,五年前更不一样。所以你现在学的东西过去了就忘掉。如果这里边没有一个通用的原则,没有一套整个的思维方式的话,学了也是白学。所以我觉得这里边值得教育家好好地去重新想一想,到底应该怎么来设计这个课程。
澎湃新闻:您个人只是花了五年的时间,从机器学习入门到成为卡耐基梅隆大学的教授?
邢波:我比较幸运,这个过程比较快一点。当然这有很多积累,并不是说那五年里边是从零开始的。因为我原来的,包括本科里面物理的这些课程,包括后来生物学的训练都打下了基础。我觉得最主要的不是训练出多少,我背诵下来或者记下来多少这个知识,实际上是把这个思维方法和研究方法训练得好。所以这个时候,就像一台复印机造好了,你再往里面放东西,印起来就很快了。我觉得打好一开始的基础很重要,所以后来会很快。但我要是没有基础从头开始学的话,那我就不知道能学成什么样子。
澎湃新闻:您教过AI相关的课程,您觉得怎么样才能当好AI老师?
邢波:这个问题挺有意思的。很多老师都是以发文章的数目,或者你是不是足够理论,是不是足够工程,程序写的足够好,以这些非常表面的标准来做一个评价和设计。我在我的教学中,包括在教课中,也包括在培养博士生中,都只有一个原则:我们就是要解决问题。你需要解决一个问题,而且这个问题要解决地纯粹、彻底、漂亮,可重复的话,其实你会发觉你既需要有好的数学手段,而且要有好的工程技术。你要让它实现地非常好,还需要有分析能力,能够把它解释清楚。然后你还得有各种各样的干脏活能力,比如洗数据、折腾机器。因为你的任务是要把这个问题彻底解决。
你说我是理论家也好,说我是实践家也好,实验家也好,或者说我位于这些之间,其实价值是不大的,对不对?其实在解决问题的过程中,可能这些东西都会触及到,然后形成一个综合能力。在我的课堂教育里,会布置很多小型课题,然后让大家去动手设计,就像我在卡梅的图模型课和高等机器学习课。那是很多学生和当今著名教授们发第一篇论文的地方,很多人的第一篇论文都是在那个课上发的,包括了一些甚至很有名的教授和工业界精英。
我的博士生们研究的过程中也是一样,他们的课题永远都不是为了证明一个理论而证明一个理论,也不是说为了做一个好看的工具而去做一个好工具。而是关注能不能把这个问题给解决掉。比如说我能不能诊断出这个病,或者是我能不能把整个的一大段视频做一个有内容的、准确地压缩总结。这个问题在那摆着,然后你用各种各样的手段去把它做出来。这里面就最大程度上杜绝了所谓的黑匣作业,或者这种手工作坊式的调参。为什么呢?那些东西不会稳定,不会成为一个产品和一个成果。稍微换个人,换一套数据的话,基本上就没有用了。所以这些原则一旦用进去以后,他会自动地去矫正研究里面的很多偏差和一些误解,然后对自己的要求就会提高很多。这是我在教育中比较坚持的一个特点。
澎湃新闻:一个合格的人工智能人才应该具备什么样的素质?
邢波:他应该对研究本身、对解决问题本身有一种热情,然后有一种投入的感觉,有一种纯粹的喜爱。就是他比较喜欢这个过程,而不是非常功利地以结果为导向。我觉得对于研究人员来说,这一点很重要,否则他很难坚持,也很难投入长期的精力或者时间。所以这一点是我对学生的期望。
然后,他要有比较强的合作精神和沟通能力,这样他才能够集思广益,能够跟别人分享成果,也能够获得别人的分享。这对他的研究或对别人研究都会产生比较正的推动。
人品上的话,我觉得还是应该比较淡定吧,不以物喜不以己悲,有这么一种情怀。因为真正的科研实际上是艰苦的,而且是需要很多耐心的,也必须能够扛得住很多干扰。比如说你的同事今年发了三篇文章,三个比分都是第一,你怎么办?你是不是能够有这个定力,坚持你这个看上去非常苦的或者是暗淡的题目,是不是有这样的坚韧性,这个是很重要的。
还有一点就是,我碰到了很多学生,教授,他们徘徊在极端的不自信到过于自信之间,这个钟摆摆得非常的快,它达不到一个很好的稳定性。有时候学了一点东西以后,就突然感觉自己已经什么都懂了,就开始产生了相当大的自满情绪。或者是非常地没有自信,然后完全不敢挑战现有成果或者是权威。反正就是要么过于自卑,要么就是过于自满。我觉得有能力在这方面达到一个平衡,既能够大智若愚,有这种淡定的劲儿,又敢于挑战权威成果,去开拓新的题目,不随大流,去做他认为有价值的、甚至是冷僻的题目,就这样一个素质,我觉得对于一个一流的研究人员是相当有必要的。
在人工智能时代,数据应得到保护,而不是无限制地被分享
澎湃新闻:在历史上人工智能的发展几经起落,这几年人工智能又再度蓬勃发展,您觉得是出于什么原因?
邢波:有好多原因。最大的原因可能是数据的积累量有非常大的突破。由于互联网现象的产生,以及信息科学或者信号感知科学等技术上的突破,现在获得数据能力比原来大了很多。
获得数据的能力大大增强之后自然就有处理数据的需求。而处理数据的主要技术就是我们所谓的机器学习、统计学、模式识别这些技术。这些技术实际上都跟人工智能是相当接近的。
然后,人工智能也是趁着这个浪潮得到了更多的重视。当然也包括技术上的一些突破,比如在硬件上有了更大的运算能力,使一些原先功能还不够强大的算法得到了比较大的提升。其实不能说是一个质变,人工智能其实还是量变。但是达到了一定的规模以后,它的一些表现让人产生了比较激动的预期,就觉得好像跟人更像了。
卡斯帕罗夫被深蓝击败的已经是20年前的事了,我个人认为,其实在技术上,它的意义跟现在围棋被AlphaGo击败相比并不是一个本质性不同的事情。只是变了一套新的算法,有了更强的计算资源,然后在一个完全有规则的、可预测的、有确定性,透明的一个游戏里边,人被这个机器击败了。这是一个非常可预见的结果,以后任何一个这样的游戏中,人都会被击败,这没有什么。
但是由于现在的媒体效应,各方面的一些关联事件,把AI的重视度提高了。所以我觉得,也许现在人工智能热也没有我们想象中的比原来更热。也许其实原来也很热,只不过我们没有生活在那个年代,没有看到而已。这是我的一个猜测,通过一些历史书我能够感觉到那个时候的人们对AI也是很有期待的。当时那个Herbert Simon——人工智能的鼻祖之一吧,一个先行者,他曾经预测十年之内机器可以超过人了。
澎湃新闻:最近不只是在学界,包括在工业界,人工智能也有很多相关的成果。您觉得最近的这一段发展是可持续的吗?还是说像深蓝一样,不久之后会沉寂,至少淡出大众的视野?
邢波:目前有一个跟原来不一样的区别。现在人工智能的发展有很多的工业界和资本的介入,这个大概是前两次AI高潮没有遇到过的。所以它可能会提供一个新的契机,使人工智能发展的动力和力度更强。至于是不是可持续,很难说。什么叫可持续?是一直在发展,还是说能够达到某一个目标?这个我很难去预测。
比如说,我觉得像以深度学习为代表的某一个技术流派的话,现在当然产生了一个主导地位,但至于它能不能可持续,这个我不敢表示乐观。我觉得这只不过是技术的某一个方向,它会达到它的饱和点,然后会有新的技术长出来。所以从技术来讲的话,永远的冠军可能是没有的,会有不同的技术突破出来。
至于AI的发展是不是能长期持续下去,我觉得要看情形。比如说,以现在对人工智能这个学科和对它的人员有这样高的期许,甚至有脱离实际的这么一些预期的话,那我觉得它会造成一些失望。AI达不到现在这么多东西,但是它还是能够产生一些相当有用的成果,比如说像无人车,工业人工智能,或者在金融和智慧城市里的应用,它都会产生这种渐进的持续性的影响。但是这些东西,你也可以说它是人工智能推动,但它也是一个非常综合的、各方面介入的一个结果。
澎湃新闻:您刚才也提到,机器学习需要很多的数据。那现在是不是没有足够的、高质量的数据?而且在数据公开的监管方面似乎不是非常的到位?您觉得这些跟数据有关的问题是否是目前机器学习的一个瓶颈?
邢波:要这么来看,如果你说这个数据只是关于人的数据的话,可能会有一个瓶颈,而且我觉得这是一个应该有的瓶颈。我个人认为,个人的数据是应该被保护的,而不应该无控制地去分享。因为某一些算法的拥有者,他从他的利益的角度,当然会宣告你们应该把数据都交给他,然后使他的算法或者他的这个工具训练得更好。那他回馈给社会什么东西呢?他应该把这个讲清楚。我觉得这里边不应该存在一个单向的、无限制的提供。所以有这样的制约是好事,并不是限制着科学发展。
从另一个角度讲的话,我觉得人工智能现在的定义权和话语权还是掌握在一部分人手里。这部分人的兴趣,甚至他们的着眼点是有很大局限的。有很多地方,有很多数据,甚至还没有被人工智能的学者和工程师重视。比如说我们有这么多大工业的数据、农业的数据、车床、引擎、交通……有很多这方面的大数据,其实都需要算法,或者需要人工智能、机器学习的手段去做分析优化和预测。这里边其实很多学者或者是工程师并没有表现出强烈的兴趣或欲望。我觉得可能是因为活太脏了,或者是曝光度太低了,回报太低了,所以还没有产生足够的关注。所以从纯学科的发展来讲,我觉得现在至少是机会远远大于资源。不存在大家找不着数据的情况,有的是数据。
澎湃新闻:近年来,许多国家在人工智能方面有很多的进展和成果,比如美国、中国、英国和欧盟国家,也包括日本。您觉得这些国家的工作做得怎么样,成果和进展如何?
邢波:当然美国是有它的相当强大的优势的。整个人工智能原创性的思维,或者是拥有原创性思维的人,我想绝大部分都在美国。这是因为美国的学术空气、文化氛围、包括资本的风格,或者是政府的驱动、引导,都是比较有利于,不光是人工智能,还有很多其他基础科学的发展。所以你会看到很多长效的、持续性的一些研究,甚至是有些很低调的、很艰苦的研究。欧洲是有很好的人才的,但他们的资源可能不像美国这么丰富,所以出现了很多人才的流动。我们其实有很多,我自己的很多同事都是从欧洲过来的,从德国、英国、法国来了很多。最近可能稍微好了一点,回去了一些。他们的问题体现在这个量不够大,但是水平是很高。他们的尖端学者其实是完全可以跟美国抗衡的。中国情况比较复杂,体量很大,然后整个大众的兴趣也很高,对于技术的接受能力、欲望也很强,这是不错的。但是整个的原创性和这种持续性的话,还有待观察。因为时间还是比较短,所以基本上对国外的很多原创理论或者技术还是有很大的依赖,高端人才的数量可能也要少一点。
日本有很多的应用场景,也有很大的需求。比如他们的老龄化比较严重,在生产力上有很大的缺口。我觉得人工智能这一块潜力还是很大的,而且日本的科研水平也是不错的。现在我觉得还很难说哪个国家很有优势、已经可以高枕无忧了。可能美国会有一定的优势,其他国家各有所长。
澎湃新闻:有人在问,什么时候才能有通用AI?
邢波:通用AI在学术界是一个joke(笑话)。我可以很严肃地讲,这个概念并不严肃。首先什么叫通用AI?这个定义就很不严肃,而且从技术上讲,它的实践中基本上是不可能的。所以很难去讨论这个问题。与其展望或幻想功能上无所不能的AI,不如在工程原理上探讨构造上的通用性。就好像在机械工程中,我们会在不同的地方使用标准化的通用的螺丝和螺母。一个飞机引擎可能要有几百万个零件,但是不需要那么多种螺丝和螺母。 AI研发当前的基本形态则是大家各自重复造轮子,造高度专一的算法。我们需要在大量AI实践中找到其中的最大公约数,设计,制造通用的AI构件,这就是Petuum AI产品的一个基本原则。
澎湃新闻:有观点认为人工智能在未来会取代人们的部分工作,或者产生一些社会问题,您对这个现象是怎么看?
邢波:任何一个技术都会这样子。我们有很多工作都失去了,比如电报员和打字员。这些问题我觉得应该留给政治家或者社会学家去解决,这完全不是人工智能科学家的任务。我个人觉得应该把这些问题分开,把社会问题和科学问题、技术问题分开来讲。混在一起的话,对于学科的发展和社会的发展是不利的。科学家应该负责解决问题。就像我们去发电,电也有害,电也会伤人,也会造成资源不均,有些地方没电,有些地方有电,怎么办呢?这个问题我觉得得靠社会,尤其是政治家或者其他层面上的人士来解决。
科学家不应该做恶,他不应该去帮助恶人做事,但是科学技术本身不是一个恶的事情。
学者创业,应该顺其自然
澎湃新闻:您是生物学博士毕业,为什么转行学了计算机且专注于机器学习和统计方法?
邢波:我本科是物理专业,然后学了生物,之后再学了计算机。我没有预先设计好的逻辑,只是根据当时的个人兴趣和学术上的专长来做不断的修整。我喜欢定量科学,喜欢比较严格的分析。本科物理学训练使我有了一些数学基础,到生物专业之后做了不少实验,也积累了数据,需要来做这种分析,但生物学不是非常重视定量的研究风格。在学计算机专业时,我写了很多程序,发觉机器学习这门科学其实很有意思,它可以把数据用一种数学的方法来做分析,还可以写出程序来自动来执行,甚至有很多比较广泛的应用,所以就学起来了。
澎湃新闻:当时机器学习还不是一个非常热门的专业?
邢波:不是一个热门专业,实际上是一个很冷门的专业。所以兴趣很重要。我觉得如果是先设好路径,然后往前走的话,其实有些功利。还是(应该)敢于跟随自己的爱好或者感觉去往前走会更happy,可能结果会更加的……我不能说更好,但我觉得至少不会让自己后悔。
澎湃新闻:您在读生物学博士的时候,还念了一个计算机科学的硕士,是这样吗?
邢波:对。那时候很多人都有这样的职业规划。多学点东西,有备无患,可以在求职或者个人职业生涯的发展过程中有更大灵活度。我也不能免俗,也做了同样的事。只是学了之后我的兴趣更加强烈了,觉得还是应该有更好的专业训练。
澎湃新闻:有人说您是个工作狂,一天工作12小时。您普通的一天会怎么样来度过?
邢波:很普通啊。既然普通的话就记不住什么内容了,就是跟平常人一样。普通的话就是看看书,听听音乐,然后跟家里人一块吃饭聊天,没有什么特殊的地方。
澎湃新闻:但有很大一部分时间是拿来做科学研究?
邢波:是,最近很忙,所以大部分时间会在工作上面。这是一个需要,就是说我觉得有时候工作的确是对这个人的时间或者精力有很大的要求。所以也得有办法去承担这个压力。但是我觉得这并不代表你就一定要去放弃生活质量,或者是走到一个非黑即白的地步。还是应该适当地去做一些平衡吧。包括我鼓励我同事也尽可能努力去认识到这一点,有必要去做一些调节。比如说我自己的话,有几件事我是肯定要做的。比如说个人的健身我是要做的,每隔一两天都要比较正规地去健身。跑步啊,或者是做其他的事情。这是雷打不动的,然后包括生活习惯,饮食也还是尽可能地保持规律。我还是主张需要有一定的平衡。
澎湃新闻:您现在是处于CMU的休假期间吗?
邢波:所谓学术休假,就是从学校里暂时离开去从事一个其他的工作,不用在学校里面担任任何的职位或者做任何的服务。但是我的假期已经结束了,我现在实际上是on leave,相当于从学校留职停薪,来全职地做公司的工作。
澎湃新闻:现在有没有带学生?
邢波:学生还会带。这是美国大学制度比较灵活的地方。教授的时间其实很有弹性,学生也有足够的独立能力,至少在我的组里,学生都比较能干,也比较独立。我一星期会在学校里跟他们沟通一天的时间,来检验他们的进展,提供一些建议,给出方向。我觉得博士其实就应该这么带,我在博士期间也这么过来的,跟导师的接触其实不是非常具体的、每天的接触。
澎湃新闻:你现在带了多少个博士?
邢波:我最高峰的时候大概有25个左右的博士生,那可能是全世界最大的一个人工智能研究组。现在减了不少,可能大概有15个。但现在有一些要毕业了,当然也有新的学生要进来,正处在一个新陈代谢的一个过程中。
澎湃新闻:其实我们看到在美国,比如说像李飞飞老师,包括您也在内,既来自学术界,又与工业界保持着比较密切的联系。您觉得这样的模式对人工智能的发展有什么样的作用呢?国内有一种观点,觉得大学教授创业是“压垮大学科研的最后一根稻草”,但美国其实是有这个传统,而且比例也挺高。您怎么看待科学家创业的现象?
邢波:这方面我觉得应该顺其自然,每个人有每个人的风格。其实这个创业只不过是自己学术的一个外延。比如说有一些事情,像我个人的话,我在做一个公司是因为我的那个研究达到了一定程度以后,它在落地和商业化过程中需要一定的规模,需要大团队。那我觉得自己如果有能力获得资金,来继续做的话,也许能够对社会产生更大的价值。这是一个很自然的一个外延。所以我觉得不能为了创业而创业,大部分做的好的创业家或者去工业界的人,不是说为了工业而工业,他实际上还是要解决问题。这个问题也许一部分可以用纯学术的方法来解决,但是也需要工程的投入。那通常这个问题当它足够大,足够真实的情况下,很多人会选择两条路结合起来走。这个我觉得挺自然的。
至于在国内,这个焦虑我也能承认,这里边一方面是跟政策有关系,一方面也跟个人能力有关系。就像我刚才讲的,工业和学术的结合不是每个人都能做到的。它需要这个人有足够的能力,或者是有足够的贯通力。我觉得尺有所长寸有所短,每个人都有自己的长处。所以不一定就是说一刀切,好像要么就是所有人都应该在学术界,或者所有人都应该只在工业界,还是应该有自由。我觉得大学环境也好,社会环境也好,一旦有了自由了以后,大家就会自己去找到自己最舒服的空间。但是你如果是要用规则来规定的话,我不觉得最后会有好的结果。
人工智能跟医生之间是协作关系,不是竞争关系
澎湃新闻:您现在主要的精力是在您的创业的公司Petuum上?
邢波:对。这是一个更具挑战性的,更难的一个课题。
澎湃新闻:Petuum是一个通用计算机的学习平台?
邢波:Petuum的工作实际上有很多层的含义。在产品层面上,它是一个通用的、可在不同场景下重复使用的、标准化的机器学习的应用系统。它是平台加上工具库,再加上数据处理功能的,高度模块化的软件系统。但它同时也包括了很多垂直应用,比如在医疗和工业制造方面的应用。值得指出的是,Petuum其实不是一个典型的“算法型“人工智能公司, 而是十分偏重底层操作系统的公司,在系统方面厚积薄发,深耕细作,强调系统和AI算法两方并重。现在很多中国,乃至美国的人工智能公司很少见到在系统,架构顶会发基础工作上的论文,却要到处宣称自己是“平台”公司。没有底层,后端的基础创新和长期投入(每个工作周期长达两三年),只在算法模型上到NIPS/ICML灌水刷比分,能产生合格,有技术优势的平台吗?除了在NIPS/ICML/CVPR/ACL上的强势表现,Petuum在过去三年中继参数服务器和桥接协议方面的突破性工作后,又接连在系统顶会发表了叠加通讯管理,弹性资源调度,节点编程与数据流编程结合的新型动态深度学习框架,基于“充分向量”和点对点通讯的通用分布式机器学习深度学习框架,机器学习自动并行化等多篇原创工作,使Petuum系统的计算效率,通用性,和可延展化远高于其他系统。
澎湃新闻:Petuum最近在AI医疗领域取得了一些进展,您之前也谈到目前医疗中处存在过度诊疗的现象,您如何看待人工智能在医疗领域的前景?
邢波:人工智能在医疗前景还是很大的。因为医疗是一个非常依靠数据来做决策的科学。而人在数据面前其实既有长处又有短处。长处是指人的智慧可以在数据中基于大量背景知识,发掘出比较细微且复杂状况或形式。但是人对数据的处理速度很慢,所以人工非常昂贵。机器学习可以作为人工的一种补偿。比如,它可以在可接受精度下把处理时间从一小时变成一分钟甚至更快。如此一来,如果AI能够在人机结合的环境里,给医生提供辅助的提示或者建议,就可以提高效率和准确度。尤其是在远程医疗领域,在一些比较艰苦的环境中,例如医生数量不足但就医需求很大的情况下,硬件和软件资源都比较稀缺。那么人工智能软件的应用就可以大大的减少诊断的时间和成本。而且AI可以通过基于大量医疗数据的训练,结合大批医生的实践经验,就好比可以同时让多位医生给一个病人看病。
但是目前我个人认为,我们所看到的人工智能在医疗领域的展示,实际上是一个很有误导性的展示。它经常都会被展示成“在某某比赛中人工智能算法检测肝癌或检测肺癌的精度高于了医生”。这是都是非常误导和不严谨的。因为它对于数据的假设,对于设备的假设,对于题目的假设都是很大的。什么叫“对于的肝癌诊断高于了5%”?这个诊断本身是个很复杂的概念,你是说这张图里边有肝癌、没肝癌?还是说这个肝癌的位置在什么地方?体积有多大?严重程度是几度?这些都是诊断的一部分。所以所谓的诊断出肝癌,还高5%的精度,这个测量本身就不是很严肃的一个测量。
这就是为什么现在的人工智能在传统或者在大部分的医疗环境里还是受到排斥的(原因)。它其实并没有解决医生的需要。它是计算机科学家自己假设的一个理想的比赛状态。但是医生和医生之间是不比赛的,医生和医生之间是协作的。在看病的时候,你很少见到两个医生在比赛,他们都是在协作。两人意见不同以后,讨论一下,统一一下,然后获得更好的结果。我觉得很多计算机学家缺乏这方面的敬畏和理解。所以他们所定义的东西其实并不准确。
所以Petuum在开发医疗产品的过程中让医生介入到了产品的设计环节里面。我们会问:医生到底需要什么?比如说,医生你喜欢读几百页的病例吗?这个大概他不喜欢读,但是你要不要读呢?还是要读的。那不如我们把读的过程简化掉,帮助医生把积累的病例很快读出来,把关键词、关键的现象,关键的过程抽出来,总结出来。再比如,医生愿意去写图像诊断报告吗?这个太费时间了,写一篇半小时,一天只能写几篇。但是医生是不是要过目一下呢?肯定是要过目的,不能完全不管。所以最后就变成一个产品,就是用机器学习的方法来帮医生写出一个诊断报告,可能用30秒钟或者是三秒钟的时间,然后展示给这个医生。这个医生可以勾勾改改,或者是不改。这是一个无缝的人机交互的环节,而不是说人工智能去跟医生比赛,写的比医生更好,这个概念本身是非常误导的。
而且作为一个医疗软件,我们提供的功能不是一个或两个功能。这个软件本身可以包含、覆盖几百种病症,它是基于一个大的知识库和大量的各种疾病各种形态的数据。它还提供刚才我讲的那些所有功能,包括报告总结、报告读取、产生ICD code, 做药物的推荐, 做死亡率或出院率的预测。这些功能需要综合在一个软件里面,这样医院才能采购。反之,假如一个医院所需的每一个功能都需要从不同地方买一个软件,最后有几百个软件,这样从商业角度是不可能实现的。所以我觉得现在人工智能在医院中的应用有很多的提升空间。只是似乎现在学术界还缺乏对这方面足够的理解和敬畏。
澎湃新闻:所以在您看来,人工智能跟医生之间的关系是一种协作关系?
邢波:是一个协作关系。人工智能是极大提升医生的效率,然后帮助医生提高工作质量和整个工作的体验,但绝对不是去替代医生。
澎湃新闻:你们公司的Med项目是关于电脑医生,是你刚才所说的那个吗?
邢波:对,我们的PetuumMed就是这样一个东西。这个电脑医生里面包含了大概20来种功能,覆盖了一百种左右的疾病。在这里,平台或者系统的功能就体现出来了。因为这不是在训练一个软件,也不是训练一种算法。它可能包含了几十种甚至上百种算法,而且是训练在不同的数据上。你怎么让它能够共存?怎么能够在一个机器里面同时跑这么多东西?软件之间怎么来自由搭配组合?这里包含了一个比较工业化、正规化、标准化的软件工程的概念。它不是调算法、调参数,获得一个高的比分或者竞赛。这实际上是提供一个专业的软件产品,可以完全离开开发者之手到医生的手里自由地使用,就像使用微软的office或者Excel软件一样。而且它功能是齐全的,有一套菜单和一个库,让你去使用各种各样的功能。
这就是目前在人工智能的研发过程中相当缺少的一种理念或者风格。基本上,大家都是用一个算法,调个参数,在某个数据集上获得了一个好的比分就大功告成了,就开始宣布,开始高调地做PR了。但那些东西在最后的应用过程中很多都会出现问题。所以Petuum其实把人工智能的过程定义成一个完整的软件工程的概念,从原始数据的处理到算法的设计和调整,然后到基础设施,包括操作系统和数据库,虚拟机的共享,相互共存的过程和流程,都要设计出来。所以形成一个像流水线或者一个标准化平台的概念,像是在土木工程中批量建房一样的。
澎湃新闻:为什么会选择医疗领域?
邢波:有好几个原因。一方面CMU旁边有美国比较突出的一个医疗机构,叫UPMC匹兹堡大学医疗中心,它有很好的资源和医学环境。其次,医学问题是不能糊弄的,它是一个关于人的生死的问题,是一个很严肃的问题。所以它对人工智能提出了一个最好,也是最有价值的挑战。如果解决的话是能够真正产生价值的。然后它也达到了一个比较有效的一个,就是use case。我们在做这个系统,最后需要展示它的功能,看它的灵活度、解决问题的能力、可适应性和通用性等。在医学里面,问题是包罗万象的,例如刚才我讲的例子里面包含了自然语言处理、图像处理和动态数据处理;它还是多媒体,因为各种数据都会同时进来。所以医疗不是一个非常单纯的、简单的刷脸问题,或者单纯的聊天机器人的问题。把这些揉起来以后其实是一个相当大的技术挑战。如果我们能把这个问题解决了,再换到其他场景去做其他解决方案的话就是由难入易。我自己的研究理念一直是由难入易,我们是先选最难的问题做,再去简化,去推广,而不是先去找最低的东西。我觉得这是不同的风格。所以,医疗领域对我们的团队和工作都是很好的训练,对我们系统也是一个比较好的展示。
澎湃新闻:跟您之前有生物学方面的背景有关吗?
邢波:当然也有一定关系。我个人对医疗这方面是比较喜欢的。我觉得这是一个对社会价值比较大的问题。
澎湃新闻:对于我们目前拥有的人工智能到底是不是真正的智能,很多人有不同的观点,甚至有些观点觉得现在的人工智能只不过是一种统计学。目前的人工智能有没有达到你心目中对于智能的定义?
邢波:为什么要智能呢?我觉得这个讨论本身就偏离了这个科学。科学是要解决问题,而不是说需要去达到某一种境界。就像你做数学也好,做物理也好,要么就是了解真相,要么就是去解决问题。如果做研究只是为了像人,那我觉得这本身就脱离了研究的目的。至少我个人是不以这个为目的来做研究的。我个人甚至不是很喜欢“人工智能”这个词。原来这个专业叫做机器学习,这实际上是一个更专业的词。它把“人”这个字去掉了,而以题目本身来定义这个学科。它是为了用机械的方法来学习数据中的一些内容。
其实这是一个很传统的科学。在早期,比如物理学早期,开普勒分析第谷的行星运行的观测数据来获得轨道方程,其实就跟机器学习很像,分析数据之后获得一个方程。后来更近代的机器学习的内容也是这样,通过原始数据来获得一个数学方程,然后用这个数学方程来做预测。就像在行星轨道里也可以预测行星的位置一样,我们也可以预测你的股票,或者你的健康,或者你的个人兴趣在下一个时间点上会有什么样的展示。所以这是一个用不同的方程对数据进行拟合的过程。至于机器学习与人工智能的关系,我觉得机器学习是获得人工智能的一种手段。当然人工智能还有其他的,预测以外的功能。比如说了解思维过程,了解数据背后的意义。但是人工智能是不是需要跟人很像?我个人持有保留态度。即使人工智能以后跟人不像,也并不会失去它的价值。人和机器就像马和火车,这两者不是在执行同一个任务。就像我们说,子非鱼,焉知鱼之乐 – 马也有马之乐,人有人之乐;自然万灵都有它们的心智;而对于AI设备,它们的任务和功能要纯粹的多,也应该纯粹。所以我觉得用任务或者问题来定义这个学科会对它的发展更有利。
从技术角度讲,我觉得人工智能以目前的技术手段,甚至以可预见的新技术手段的话,在很大程度上不能跟人的智慧相提并论。这两者不是一回事。比如说,计算器算数学题超过了人,你会觉得它智慧吗?这不是一个赛道上的事。人是不跟机器来比这种事情的。
有几件事机器是做不到的。
机器不会提出探索性的问题,但人最大的长处不是解决问题而是提问题。真正的好学生是会提问题的,出题永远比做题要难。
还有,机器很难了解它不知道的东西,它顶多知道它知道什么。但像我们都知道我们不知道什么,至少有智慧的人知道他不知道什么东西,是有自知之明的。机器好像很少有自知之明,它不会说这个事我不知道,更不会去主动发现自己不知道什么。
还有一点就是机器很依赖数据,小数据里面的机器学习是很困难,非常不稳定的。而对于人来说,大概一个例子就可以把东西学会,一张图看一遍就够了。其他还有一些细节的具体问题,工程上的问题就更不用说了。
人作为一个机械的定义而言,他的组合是非常完美的,他的能耗、可靠度、稳定性,适应力比任何机械都要好。所以我觉得,不妨把人工智能跟人的形象和功能脱离开比较好。要看书,就发明一个能看书的机器人;要读图,就发明一个能读图的机器人;要既能看书又能读图,又能够做其他事情的话,就发明这样一个机器人。但千万不要说它好像已经跟人很接近了。人能做的事很多,实际上。