黄学东,湖南长沙人,1982年获得湖南大学计算机科学学士学位,1984年获得清华大学计算机科学与工程硕士学位,1989年获英国爱丁堡大学博士学位,IEEE会员。现任美国微软公司Speech Platforms Group 的总经理,主持下一代语音系统产品的研究和开发。
黄学东是在美华人的杰出代表之一。在爱丁堡大学的时候,黄学东只用不到两年的时间就拿到了博士学位,创下了该校最快取得博士学位的纪录;论文还赢得了IEEE杰出论文奖,目前包括黄学东在内的最新的语音技术研究仍然在应用该论文所取得的成果。在卡内基梅隆大学主持语音识别研究工作期间,他所领导的小组就多次在美国国防部主持的高科技评比中获得最优秀的性能评价。1993年,黄学东加盟微软研究院并受聘为高级研究员,主持和建立微软公司语音技术的研究和开发工作,取得了累累硕果,目前他正率领160名微软的研究和开发人员进行微软公司下一代系统的研究和开发。
黄学东在微软的经历与另一名优秀华人李开复是分不开的。20世纪80年代,卡内基梅隆大学(CMU)是语音技术研究的中心,吸引了全世界最优秀的学生。当时,李开复作为卡内基梅隆大学的研究生结识了当时在苏格兰爱丁堡大学攻读硕士学位的黄学东,两人一拍即合,并成为多年的好朋友。硕士毕业后,在李的邀请下,黄学东加盟到CMU;1986年,黄学东作为访问学者到CMU正式工作。
1989年,李开复的CMU小组开发了Sphinx系统,获得了美国国防部的评估奖项,这是世界上第一个与说话者不相关的语音识别系统,该系统具有1000个单词的单词量。黄学东也为Sphinx做出了贡献,他和CMU小组一起工作了6个月来为这个系统的运行做准备。1990年,李开复离开学术界到苹果公司工作,从此一直到90年代末,两人没有再次合作。
在此期间,黄学东继续从事语音识别技术的研究,并超过李开复,领导开发了Sphinx II。该系统的单词量在世界上首次达到了60000个,并准备争夺第二个美国国防部的评估大奖。在1992年,在国防部资助的语音项目中,Sphinx II不仅结果最精确并且纠错能力最强。
黄学东他们的成功自然也就吸引了来自全世界的注意。IBM 和 Apple都极力希望黄能够加盟。此时的微软刚刚建立了自己的研发实验室,非常希望黄和他的团队能够加盟。在前6个月内,黄拒绝了微软的邀请,因为他意识到如果离开的话,CMU的很多同事会非常失望。但是当他敏锐地观察到应该把语音技术应用到世界上最流行的PC操作系统中时,他最终还是选择了微软。
1993年1月,黄正式加盟微软,在OS产品组的移动商务组工作。微软研究院前执行官Nathan Myhrvold最初试图说服黄学东来微软研究院工作,但是黄最终还是选择了语音技术产品化的研究而不是继续基础研究工作。
然而,在来到微软不到一个月,比尔·盖茨就把黄的语音组从产品开发中心转移到了微软研究院。盖茨当时认为PC的硬件还不足以支持语音识别,因此他给OS组的负责人发信把黄的语音组调到了微软研究院。黄学东回忆说,“我当时有一点点失望”。
黄学东及时地认识到了微软研究院这种重新布局的明智之处。他现在明白了他的语音组的算法在产品化之前需要进一步的完善。他说:“产品化的软件对于算法的可实现性和鲁棒性的要求其实很高,而我当时对此认识还非常浅显,因此我才会认为语音技术已经非常完备”。
进入微软研究院伊始,黄学东的小组就在Sphinx II的基础上建立一套名为Whisper的连续语音引擎,同时语音技术组(STG)还开发了语音应用程序接口(SAPI)来访问这个新的语音引擎。黄学东说:“在不到6个月的时间里,我们全组上下齐心协力,把代码移植到了Windows NT系统下,并压缩成IBM的脚本。到1993年7月,我们已经完全准备好展示我们的产品了”。
Whisper的第一次展示是和来自Dragon Systems的软件进行比较。具有讽刺意味的是,两个软件均来自卡内基梅隆大学里的国防部资助的语音研究成果。结果Whisper的性能远远好于Dragon的程序。黄学东说:“我们的国防部评估经验在竞争中起到了决定性的作用”。
1994年,STG组已经发展壮大到20人,他们和一个产品开发小组一起合作开发SAPI1.0和Whipser,以便嵌入到Windows 95 SDK。语音识别器代码的开发对保证研究者工作质量作出了最大贡献。
STG研究人员继续完善他们的语音技术,1997年12月,黄学东向Gates汇报了他们的进度,提出成立一个姐妹语音组以便做开发方面的工作,语音产品组于1998年5月成立。
1998年9月,微软推出了SAPI4.0,紧接着在2001年8月又推出了SAPI5.1。SAPI5.1使得开发人员非常容易的把语音加入到Office XP的应用程序中。
在完成SPG之后,黄学东又在语音引擎方面做出了突破。黄估计,“语音系统的精确度一年可以提高10%-15%”。
1998年7月,黄学东说服李开复加盟微软,时隔8年之后,黄和李再一次成为同事。但是这次李开复是受命着手成立微软亚洲研究院,并于2001年8月再次返回Redmond,成为NISD的副总裁。之后,李开复便于2001年夏天邀请黄学东作为一个新成立的称为.Net语音产品组的经理,语音产品组则成为其中的一部分。在从事语音技术研究十年之后,黄学东最后又回到了产品开发的道路上。黄学东已经做好了准备去追寻这个梦想——把语音识别作为和计算机交互的最常用的工具。黄的语音组首先在微软Office XP中完成了语音识别技术的开发,然后又为Tablet PC开发了一个增强版本,后者的精确度是前者的两倍。
虽然已经取得了巨大的成就,但是黄学东还是敏锐地意识到语音技术在工业中应用的空白。于是他的研究小组设计了Speech Server。微软一经推出Speech Server 2004,马上获得 SpeechTek产品奖。
硕果累累的黄学东已经是三个孩子的父亲,闲暇之时,他喜欢用中国的水墨画陶冶性情,在东西文化的交汇中,黄学东扎扎实实努力做到最好。
《清华人》2004年第三期