丁晓青,清华大学教授、博士生导师。1962年,毕业于清华大学无线电电子学系,获优秀毕业生金质奖章并留校任教。长期从事智能图文信息处理、模式识别、图像处理、文字识别、生物特征识别、视频智能监控。先后荣获国家科技进步二等奖三次(2008、2003和1999年),国家科技进步三等奖一次(1992年),北京市科学技术一等奖一次(2006年),教育部科技进步一等奖两次,教委等部委科技进步二等奖五次、三等奖一次,95'全国电子十大科技成果奖及863计划先进个人奖等。有27项发明专利被授权。在FAT2004国际评测中获“全面最优人脸验证算法奖”。发表论文近600篇,合作专著5本(其中两本由WorldScientific Publishing Co.Pte. Ltd.出版)。提出的“模式识别统一信息熵理论”对模式识别系统的设计有重要的指导作用,受到国内外学者的重视。多年来在汉字识别领域,取得了一系列国际领先的研究成果,并于1992年创立北京清华文通信息技术有限公同,成功地进行了科研成果转化和产业化推广。在最权威的人脸识别评测FRVT2006中达国际领先水平,推动了生物特征识别技术的发展和广泛应用。因研发国际领先的文字识别和生物特征识别技术和系统,被选为国际模式识别协会会士(IAPR Fellow)、国际电气和电子工程师协会终身会士(IEEE Life Fellow)。
访谈之前我们便获知,丁晓青教授带领清华大学智能图文信息处理研究室以图像识别为基础,采用统计学习方法一举攻克了文字识别领域识别性能无法满足实际应用需求的重大瓶颈问题,有效解决了已有文字无法输入计算机的时代难题。这是一条充满艰辛的攀登道路,最终成果斐然。作为一位女性学术带头人,她与其他数十位师生“持续卅余年,齐心奋力,在文字识别的理论和方法研讨上、在大规模印刷、联机和脱机手写汉字识别、中日韩、蒙藏维哈柯阿民族文字文档识别的研究上取得了国际领先的研究成果,并将研究成果在世界范围推广应用”,迄今为止,已鉴定通过文字识别相关研究成果13项。她本人以第一完参成与人荣获国家科技进步二等奖三次,分别为“THOCR-1997综合集成汉字识别系统”(1999年)、“高性能东方文字文档智能全信息数字化系统”(2003年)、“TH-ID人脸和笔迹生物特征身份识别认证系统”(2008年),以第二参与人荣获国家科技进步三等奖一项,即“多字体多字号印刷体汉字识别系统”(1992年);还获得20项省部级奖励……荣膺的奖项、表彰不胜枚举。
我们惊讶于丁晓青教授在文字识别和生物特征识别两大科研方向的多个领域均获殊荣,可谓是攻坚克难,百举百捷。如果将文字识别和生物特征识别两大科研方向比作令人仰望浩叹的两座山峰,那么,她历经艰险,最终攻克难题,堪称征服世界科研高峰的一位杰出的女性攀登者。我们不禁好奇:她究竟走过了怎样的人生跋涉之旅,她是如何攀登成功的?她的娓娓讲述解答了我们的疑问。
早年经历:书香门第蕴人才
丁晓青父母均为浙江大学教师,家庭属于典型的书香门第。抗战爆发后,高校纷纷迁移至大西南。除了西南联大之外,父母随浙大校长竺可桢带领的师生,辗转数千里,西迁贵州,丁晓青即出生在此。抗战胜利后,父亲从贵州返回家乡江苏,1949年解放之初又支援西北,任西北工学院物理教授(后扩展为西北工业大学)。刚满十岁的丁晓青跟随父亲来到陕西,初中就读于西安女中,她时常耳闻“女生不如男生”之偏见,很不服气,高中毅然考入了西安高级中学。1956年,她放弃了免试保送兰大物理系的资格,以优异成绩考入清华大学电机类,进入无线电技术专业。当年清华大学在陕西、宁夏、甘肃、新疆西北四省区总共录取了24名高中生。西安高级中学虽是陕西名校,但多年来也无人考入清华,那年却有两人被录取,她是其中之一。
1947年抗战胜利从贵州复原江浙后全家合影(时丁晓青8岁)
丁晓青兄弟姐妹八人,她排行第六。其中,有五人考上清华大学,但因经济条件所限,仅有三人入读清华:46年大哥考入浙江大学,毕业后入哈尔滨工业大学苏联专家研究班;48年二哥从浙大附中考上清华大学,但攻读上海交通大学航空系;50年三姐从浙大附中考上清华大学,可惜入读大连工学院,后转为军事通讯工程学院(西安电子科技大学),并以全班唯一最高军衔上尉毕业,是我国出色的雷达专家;55年五哥从镇江中学考进清华大学自动控制系;64年八妹也从西安考进清华无线电系。56年高考那年,丁晓青从西安高中报考清华也深受五哥影响,临考前她收到五哥的清华介绍和发来的五六张美丽的清华园照片,这成为了她报考清华的强大动力。抗美援朝时,全家有兄姊三人参军:有去军事通讯学校的姐姐、在镇江中学的四哥参军去后勤部和在上海交大航空系的二哥参军去了空军。一家年轻一辈,人才迭出,应归因于书香门第严谨治学的家庭熏陶。
清华留校:磨砺以须待勃发
从1956年秋开始了在清华大学六年半的学习生活。1960年无线电电子学系(1958年改称,亦简称“无线电系”)决定从1956年入学的无线电技术专业学生中抽调丁晓青、姚彦等十余人,组成新班(无208班),筹建量子电子学专业,瞄准当时世界科技前沿的铯原子钟、量子放大器等,学习量子运算、能级分裂、量子跃迁等内容,参加实验室建设,研制相关器件和设备。作为班里年龄最小的一个,她完成了在液氮环境下制作三泵频量子放大器(波长2.5cm,旨在利用低噪声提高雷达作用距离)的毕业设计。后她因选择了无线电技术专业留校而重新再做了一个毕业设计,故而延长半年毕业。在雷达教研组,她完成茅于海教授指定的研制雷达双工器(Duplex)系统毕业设计,将茅老师从美国带回的双工器配成系统。她从翻阅美国雷达丛书开始,理解雷达层次设计,布置、加工Duplex线路,结合雷达信号收发工作,反复实验测试,独立完成整套系统。短短一学期的时间,她推着从匈牙利进口的1176微波发生器,通过地面并不平整的过街楼,往返于在东主楼四楼九区的实验室与仪器室之间,最终毕业设计获得难得的5分好成绩。因平时仅一门4分外全部课程5分的优秀学习成绩,她顺理成章地获得了优秀毕业生金质奖章。在清华大学无线电系,她钻坚研微,吸收知识理论,培养学业技能,提高综合能力。特别是经历两次毕业设计,时间紧、难度大,她更锻炼出了不畏艰难的意志品质,养成了攻苦食淡的良好习惯。
毕业后,无线电系副系主任陆大䋮教授安排她留校担任3、4、5三个年级中的雷达专业学生班主任。1963年,她负责管理多个年级的学生,包括学生入党、因材施教、班干部培养、教学安排等繁复工作。1964年,她被派往顺义县衙门村参加“四清”。文革开始,在江西鲤鱼洲农场劳动近两年后,因电视教研组(图像教研组)归属留京单位(未迁往清华绵阳分校),她也随教研组直接返回北京。在北京这个她熟悉的第二故乡,此时“青阳逼岁除”,她勤奋探索,磨砺以须,耐心等待着学术春天的到来,期待着向科研高峰进发。
图像处理:基础工作夯厚基
1971年回京后,恢复被文革剥夺的专业学习权利而开始回归正业。电视教研组(图像教研组)以集成电路彩色电视机及电视中心设备的研制成为那时的主要工作,着手研制国内首创高频头、彩色接收机等。当年,全球计算机数字化风起云涌,电视教研组(图像教研组)将专业发展方向锁定为图像数字化。针对当时国产计算机TDJS 130、140,首先需要独立解决图像输入计算机及其数字化处理问题,着手设计、研制图像处理器。待到1978年底,改革开放的春风吹来,基础工作已得到相当的厚积。当年因欠缺高速AD变换器,清华无线电系葛成辉教授从美国分两次带回的64K的256×256存储器,这样,丁晓青就获得了组成存储器的四块电路板,她又设法购买了慢速AD变换器,研发成功了我国最早的小型计算机图像处理系统并转产。
时值微处理器(MicroProcessor)问世,这意味着微机的处理能力已超过当时国产计算机的运算能力。丁晓青果断决定在微机上直接尝试,于是和老师同学一起创建性地制作出国内最早的微处理器图像处理系统,实现将图像输入微机和微机图像处理,并顺利转产。在整个研制过程中,她领头开展业务,从零起步,起早贪黑,设计绘制逻辑图、线路图,焊接调试电路,与计算机接口相连接等。基于此,捕捉的信号便可进行计算机处理,这为日后的文字识别夯下了厚实的研究基础。
研发的微机图像处理系统
在微机处理系统上开始汉字识别的研究
文字识别:透出现象探奥窔
文字是人类文明的基石,汉字不仅是中华文化的重要载体,还是世界上唯一沿用至今的最古老文字系统。对于汉字书法艺术,东晋大书法家王羲之曾绘声绘色地描述道:“每作一波,常三过折,每作一竖,常隐锋而为之,每作一横,如列阵之排云……”这在一方面展示出汉字书法艺术的璀璨瑰丽、博大精深;从另一方面,也勾勒出汉字笔法字体丰富多变的实际特征。
在信息化时代,文字信息数字化计算机处理对于人类文明发展更具特殊意义。具体地,将无处不在、无时不有的印刷或手书的文字文档介质信息,自动转变成计算机可阅读的电子文档,这是文字信息化的核心关键。但是,由于介质上的汉字字体不同,形态各异,字符类别巨大,字形结构复杂,众多汉字输入计算机成为汉字信息化的巨大障碍。不仅手工输入繁琐,计算机识别输入更是困难重重,这一历史最悠久的“活文字”,在信息化时代却正面临前所未有的“生存危机”。因此,国家863计划的一个重要课题是智能计算机主题,其中就有文字识别(OCR)。70年代初,留在北京的清华无线电系电视教研组(清华电子系图像教研组)决心投入攻克汉字输入壁垒的工作,揭开文字识别研究的序幕。虽然当时国际上已开展大量可应用于遥感技术、治疗癌症等领域的相关研究,丁晓青审时度势,做出判断:文字识别这一科研方向站得住脚,大有用武之地,具备独立研究的广阔空间。她决定,依托已掌握的图像处理系统的硬实力,及时转向这一极具战略前景、关系全民文化发展的重要方向。
世界上汉字识别的研究虽然起步较早,但大多数研究都针对其结构特征,提取汉字结构信息,如特征点、笔画等,采用笔画分析综合法、笔画序列识别法等等进行识别的。但由于千万汉字数量巨大、结构复杂、变化多端,汉字表述就十分困难,岂谈准确辨识。这些方法是悬驼就石,无法从根本上解决问题。
丁晓青认为汉字识别必须另辟蹊径。她从人们在书写汉字和辨识汉字两者的不同感受中得到启发:人书写每一个汉字是依据汉字笔画结构一笔一划书写的;而对汉字的辨识却是比较汉字整体的视觉形象异同而加以辨识的。因此,笔画结构难以识别汉字,而模仿人的感知,汉字视觉形象的比较才是识别的正确方法。我们应该做的是,如何准确表述视觉形象、进而精确比较其差异达到最佳识别。显然,采用统计分析和分类的方法是汉字识别的正确战略。
丁晓青首先为统计识别展开统计特征的研究。她带领电子工程系汉字识别课题组(智能图文信息处理研究室前身)率先在笔画结构的汉字图像上提取汉字的统计特征——笔画密度特征,用笔画穿透频次描述字符图像的形象特征,用汉字全局的笔画密度特征的差别辩识汉字的异同,结果识别率比结构方法出现显著提升。何以如此?经过深入研究思考,她认为,实验验证了分析的正确性。汉字识别更适用统计方法表述汉字形象特征,而非适用西方文字的结构方法。显然,“汉字具有复杂的笔画结构和纹理,并具有巨大的字符集合,汉字的统计形象表述可以提供大量的特征信息熵,为复杂量大困难的汉字识别创造条件。而西方文字字符图像的笔画简单,所构成的字符图像特征相对也就容易提取。加之西方文字字符类别数有限,因此,许多在西方文字识别中成功的识别方法,在数量巨大、结构复杂的汉字识别中却完全无能为力了”。
THOCR研究和识别的文字字符集合列表
为了彻底解决巨量复杂汉字的识别分类问题,还需要有更深入的理论分析,建立如何获得最佳性能的分类的理论基础。在实验研究的基础上,从学习香农信息论受到启发:香农信息论为通讯技术和事业的辉煌发展奠定了坚实理论基础,而模式识别和通讯一样,本质上也是信息的转换和传递。丁晓青发展了统计模式识别的信息熵理论,将香农信息论扩展到模式识别领域,希望为模式识别深入发展提供有益的指引。
丁晓青提出的模式识别信息熵理论指出,要获得最佳的分类判决唯一依赖的是选择样本观测特征与其类别统计量间的最大“互信息”,藉此尽可能地消除样本内在类别的不确定性,即最大互信息分类准则可保证获得最小错误概率的最优识别结果,并进而导出了最大互信息最优特征压缩识别准则。
在信息熵理论的指导下,她先后提出微结构统计识别算法、手写汉字高阶统计建模的统计分类法等方法,将文字字符图像表示为高维空间中的特征向量,利用网格笔画微结构特征抽取的方法,将大小规一化的字符图像网格化,以网格笔画微结构特征取代逐点笔画特征,获得高信息熵的特征提取,以满足高互信息汉字识别要求的特征提取,不仅提高了字符特征的稳定性,而且合理降低了其维数,再辅之以统计学习和最优分类器设计,又进一步创新提出鉴别子空间文字识别、异方差识别、广义置信度分类器集成等,最终高效全面突破了印刷体、手写脱机/联机汉字识别,取得令人惊叹的成功。从测试效果看,“全字体印刷汉字识别率达99.5%以上,联机手写字符识别率为95%,规范脱机手写字符识别率达99.2%,自由脱机手写字符识别率则为92%,均达最高识别性能。”从实际应用效果看,“THOCR产品在国内占有65%以上的市场”,并授权于微软、IBM、摩托罗拉、诺基亚等许多国际知名公司,以及三星、阿里、华为、百度、腾讯等公司。丁晓青还提出Gabor变换文字识别算法,攻克强干扰图像文字识别难题,并获得美国专利。高性能汉字识别技术还攻克了最具挑战性的信函中文全地址识别难题。此外研究室研发的金税工程增值税防伪税控识别系统、银行单据识别等行业应用解决方案广泛应用,均在社会经济发展中扮演重要角色。
成功攻克汉字识别难题后,丁晓青一方面进一步解决包括(图文表格等)复杂文档版面自动分析、识别和理解的全信息文档识别算法和系统,开创了复杂文档版面复原的全信息数字化崭新途径,并与湖南青苹果数据中心合作,实现了自1946-2016年《人民日报图文电子版缩印本》等的电子出版巨大工程;另一方面提出自适应组合字符基元分级识别、基于基线的字符切分等方法,解决和成功研制出蒙、藏、维、哈、朝、柯等我国主要少数民族文字识别系统,达到平均95%以上的文档识别率。2002年研制成功国际领先的高性能东方文字文档智能全信息数字化系统,实现了印刷体中日韩文字的高性能识别和文档全信息识别数字化,中日韩东方文字识别系统授权于微软公司,并在世界范围销售。经美国Scansoft公司评测,整体性能达到国际领先水平。而全信息数字化系统在电子出版产业中突显出重要作用:已出版原文重现的1946—2006年的《人民日报电子版》等大量重要报刊杂志以及中央文献等。自1990年推出汉字识别产品十余年内,丁晓青率领的智能图文信息处理研究室攀登到了文字识别科研领域的世界高峰。
1946-2006年原文重现人民日报电子版与缩印本
统一平台蒙藏维哈柯日韩汉英混排文档识别系统
生物特征识别:同源流出万斛泉
在丁晓青眼中,从文化传承视角,攻克汉字识别难题(识字)解民族信息化之责首当其冲;而从服务社会视角,突破生物特征识别难关(识人)推动社会前进之任也同样责无旁贷。2000年,她年逾花甲,却展开新的征程,一如既往,以同样异于寻常的视觉感知识别战略,将研究方向转向生物特征识别。仅仅四年后的2004年,在英国ICPR2004,她率领团队参加了国际模式识别会议举办的FAT2004人脸认证竞赛,以各项指标最优团队,获得“人脸验证算法全面最优性能奖”,达世界领先,影响巨大。2005年,首次推出TH-ID人脸和笔迹生物特征身份识别认证系统,此系统在2007年举行的国际最权威FRVT2006测评中,脱颖而出,成为具有最佳识别性能的国际领先识别系统。2005年开始至今,清华TH-ID 成功利用于深圳罗湖口岸等的出入境自助通关系统,是世界首创的人脸识别大规模实际应用范例。
总有人会问,丁晓青怎么从文字识别忽然转向生物特征识别,又何以能迅速在新领域取得如此佳绩?她认为,模式识别是人工智能的重要的基础,文字识别和生物特征识别并无霄壤之别,大多是图像信号的识别,是相互联系、异流同源的万斛源泉:同是应用信息熵理论解决的模式识别问题,其基本思路在于如何获取更有效的外部观测特征,锁定最主要变化,挖掘内涵变量。过程由信息熵、条件熵、后验熵加以约束,熵的变化起决定作用。她举例说:“眉毛、鼻梁、嘴巴等是人脸的基本结构,每个人的人脸结构基本相同,而不同人的人脸具有的是人脸的细微差别,生物特征识别系统就是通过这种细微差别确定不同人的身份。”从表情变化、情绪起伏、面部特征等细节观察,挖掘、洞悉其性格、气质等内涵信息、内在要素。这一过程是科学研究的方法论,即由表及里,透过现象看本质,找出内在本质必然联系。在生物特征识别中,她也依托与文字识别共有的基本概念和核心技术,故而能如此迅速地研发出了高性能的生物特征识别算法和系统。
左图:TH-ID获FAT2004“人脸验证算法全面最优性能奖”;右图:05年始工作于深圳口岸出入境自助通关系统
2006年科技部专家组考察智能图文信息处理研究室
从文字识别跨越到生物特征识别,看似不可思议,而在丁晓青看来,却是学科发展、教育培养、拓展应用的一整盘棋。从学科发展看,利用信息熵理论指导,基于视觉感知统计分类识别算法,一脉相承的解决文字和图像识别问题;从教育培养看,在丁晓青带领下,清华电子系智能图文信息处理研究室重视培养学生,着重考虑学生未来的科研发展前途,必须让学生在更宽广的范围领域寻求突破。经过长期扎实的科研训练,智能图文信息处理研究室的学生无论在文字识别方向,还是在生物特征识别及众多图像视频领域,都有坚实的图像辨识基础。他们在自身研究领域或许一时受限于某一方面,但因基础厚、视野广,不会得鱼忘筌,即便跨领域、跨学科也游刃有余,因此他们在求职时往往颇受青睐。迄今,已有50余名博士、44名硕土在丁晓青的指导下完成学业,在各自学术领城取得了优异成绩,而在清华图像识别领域扎实的学习和研究,为他们毕业后的事业发展打下重要坚实的基础。从拓展应用角度看,智能图文信息处理研究室的研究不可能仅局限于文字识别,文字识别之外还有更广阔的图像科研领域,生物特征(人脸、笔迹、虹膜、签字等)识别、目标检测、跟踪等都需向更大的范围进行纵深拓展。而在某种程度上,生物特征识别更受关注,社会应用也更为广泛,如安保等方方面面,几乎施无不达。在进军生物特征识别的征途上,丁晓青带领团队专心致志,一心一意从学科建设、国家需要出发,瞄准最困难、最需要解决的科研瓶颈,淬火成钢,磨杵作针,在识别领域持续付出艰辛,成就卓著。
丁晓青认为,科研需要脚踏实地,行稳致远,还要远见卓识,兼容并蓄。她以三维图像领域的共形几何为例说,从图像几何角度进行三维成像的计算机信号识别,在人脸变化中保持几何上的共形,足以另辟蹊径,完善生物特征识别,同时解决一些三维成像中的“顽疾”,应用更为深入。学科交互,有利于综合研究,推进科研发展。
电子系智能图文信息处理研究室师生合影
作为一名科研工作者,在勇攀高峰的艰辛道路上,一生能有一项原创的贡献都十分不易,丁晓青教授却征服了文字识别和生物特征识别两座山峰。今天,我们耳闻她的励志故事,目睹她谦和慈祥的容颜,真可谓“俗虑尘怀,爽然顿释”。我们认为,她的成功之道在于,着意于夯实基本功,潜心积淀专业深识,精心根植学术涵养,以发展的观点、全面的观点、普遍联系地看待科研方向的选择,注重透过现象看本质,以“解连环”的科学精神钻研科研难题。我们还看到,她以开阔的视野、宽广的胸怀春风化雨、教书育人,而实心任事、不慕虚名浮利的情操境界更带给当代青年学子以莫大的思想启示。
采访合影
采访 | 欧智坚、李亚利、乔元春、万军
摄影 | 赵阳
撰稿 | 万军