2023年3月18日,清华大学电子工程系“新一代人工智能技术发展研讨会暨系友论坛”在清华大学罗姆楼三层报告厅顺利举行。14位来自学术界和产业界的人工智能领域专家学者、企业代表参加论坛并作主旨报告,320名嘉宾线下出席,2万名嘉宾线上参与,共同就新一代人工智能技术发展中的关键技术进行深入探讨,开展行业间互动交流,展望未来发展趋势。无限基金SEE Fund管理合伙人贺静、中金资本副总经理黄兰、金沙江创投合伙人杜頔康主持论坛,清华大学电子工程系系主任汪玉致欢迎辞。
汪玉致辞
开幕致辞中,汪玉代表清华大学电子系对各位领导和专家、校友的到来表示热烈欢迎,他回溯了校友论坛的发展,肯定了校友论坛在集智集力和文化传承中的重要作用。汪玉表示,下一个10年将是中国硬科技发展的黄金时间,如何有效地推动中国硬科技的发展成为亟待解决的问题。电子系期望以中国顶级高校的技术为源头,校友为核心群体,促进产学研相互了解,缩短理论与实践的距离,增进技术与资本的交流。面对人工智能将深刻地改变生产力、重塑生产关系的新时代背景,汪玉表示,电子系十四五规划将以“培养世界一流研究生”为总目标,鼓励研究生面向社会提出“真问题”,同时集社会合力,一起培养面向未来具有“器识力”的人才。
新一代人工智能技术进展
吴翼 Reinforcement Learning for Humans
清华大学交叉信息学院助理教授吴翼分享了“强化学习”(Reinforcement Learning)主题下团队的最新研究成果。他用生动诙谐的案例剖析了AI目标与人类目标的根本区别,指出AI目标是理性的最大化奖励,而人类目标则有时存有娱乐和感性等因素。吴翼表示,AI未来的学习目标应根据人的不同行为进行反馈并不断调整目标,自己与团队的研究愿景是让AI智能体实现Adaptive, Communicative, and Human-like embodied。他以游戏和机器人控制下的多个研究案例展示了阶段成果,并在最后展望了AGI技术发展的未来前景。
吴翼作主旨报告
代季峰 视觉通用大模型
清华大学电子工程系副教授代季峰介绍了“超大规模视觉通用感知模型”的发展挑战和研究现状。在研究进展方面,代季峰首先介绍了团队创新的“多模态多任务统一预训练”算法,该训练模式首次将现有各种预训练算法统一在一个框架中,并实现多模态多任务统一预训练,这让训练流程简洁高效,训练过程易于监控并排除故障。随后,他介绍了“超大规模图像主干网络”的研发成果,它以可变形卷积的方式取得了图像领域标杆任务的最优性能,打破了Vision Transformer对视觉大模型的垄断,超越包括微软、Meta、谷歌等机构的视觉大模型。最后,他介绍了多任务兼容解码网络Uni-Perceiver系列的发展,并表示未来的研究目标是降低AI模型研发的边际成本。
代季峰做主旨报告
王井东 百度文心·CV大模型VIMER:算法与应用
百度计算机视觉首席科学家王井东总结了产业应用驱动的“视觉大模型”在当下的研究共识、发展挑战、应对方案与业界应用。他从“自监督视觉表征预训练”方法在近年的发展讲起,随后展示了百度基于预训练发展出的诸多业务应用案例,如燃气行业、能源行业、电子制造行业大模型、度目人体数据属性分类和自动驾驶长尾数据挖掘等。最后,王井东分享了文心·CV大模型VIMER的设计逻辑。回顾过去十年深度学习的历程,他认为ChatGPT的出现促使人们重新思考技术创新模式,应从学术端的算法创新,到更多关注企业端的产品创新。
王井东做主旨报告
人工智能基础底座
下午Session 2举行,来自业界、学界的五位嘉宾围绕“人工智能基础底座”进行分享与讨论。
周伯文 ChatGPT & GPT-4与下一代协同交互智能
清华大学电子工程系长聘教授周伯文重点介绍了ChatGPT与GPT-4的核心技术,并指出协同交互智能如AI与人类用户在推理、知识和价值观方面的对齐在其中的巨大意义。他表示,我们正面临着生成式人工智能的持续突破,从而进一步验证了AI的高价值场景在于更多参与System 2(逻辑分析系统),而不是System 1(直觉无意识系统),而最近大模型核心进展也在于AI在这个新范式下和人的协同和交互学习的提升,而不仅仅是参数量变大。
他重点讲解了ChatGPT的几项核心技术如In-context learning,chain-of-thoughts, 和instruction tuning, 指出大模型底座存在的缺陷也从理论上探讨了大模型涌现能力的隐式贝叶斯解释,并分享了清华大学协同交互智能研究中心建设进展与主要工作,中心在2022年初筹建式及锁定人机新协同交互、多模态统一表征与融合、AI与环境的协同演化等前瞻性研究课题,并以这些技术方向进一步推动可信赖人工智能的进展。
周伯文做主旨报告
李建文 AI新范式下,GPU创新登临之道
清华大学无线电系校友、登临科技创始人兼执行总裁李建文从底层硬件端出发,讲述AI新发展对芯片的挑战与目前的加速解决方案。
目前的挑战在于,传统GPU其基础架构原为图形加速和高性能计算而设计,针对AI计算存在着计算密度不高,计算效率不高以及对外部带宽依赖太强等问题。此外,传统GPU还存在计算成本高、功耗高,性能不优等问题,已无法满足AI计算对于算力的指数级增长需求。李建文从AI计算架构核心需求出发,提出GPU+:基于通用GPU的软件定义的片内异构体系架构,结合片上高速内存子系统,可最大化发挥硬件能效,并以其公司系列产品Goldwasser为例,对比国际旗舰产品,展示了GPU+对大模型计算的显著能效比优势。此外,他强调,大量开源生态的应用开发基础设施是在CUDA软件生态上完成的,因此成熟且完备的软件体系对芯片硬件亦十分重要。最后李建文表示,登临将持续通过架构创新,解决生成式AI大模型场景下,算力产品的能效比问题。
李建文做主旨报告
黄民烈 可控可信可配的对话大模型
清华大学计算机系副教授黄民烈梳理人机交互历史,概述当下AI智能体现状。他将过往AI发展分为三个阶段:以规则为主的时代、智能助理时代和大模型、大数据的深度学习时代,并重点介绍现有功能型AI与拟人型AI。
功能型AI强调理性,具备机器智能,ChatGPT与Claude是大模型阶段的功能型AI代表,这类AI通过基于人类反馈的指令学习、强化学习逐步成为通用型对话助手。而拟人型AI强调感性,在大模型阶段以Google LaMDA和Meta Blender为代表。只有将机器智能这一功能属性与类人智能这一人格属性相结合,才能创造AGI水平的对话智能体。黄民烈及其团队研发的OPD作为拟人型AI,支持根据用户反馈实时修复模型生成结果中的问题,从而在交互中不断迭代改进模型。他总结现有大模型特点为架构统一,参数规模持续增大、数据处理能力不断增强,并认为模型会通过模仿,不断对齐人类偏好和价值取向,最终在多个应用场景中落地。
黄民烈做主旨报告
刘知远 大模型值得关注的重要特性
清华大学计算机系副教授刘知远从研究角度分享大模型值得关注的主要特性,提供更多大模型研究路径。他指出整个AI已经进入大模型时代,预训练-微调成为最新范式,基础模型已经在多个领域发挥作用。与此前相比,大模型最大的区别是它通过自监督学习实现了面向大规模无标注数据的深度学习。
刘知远表示,验证了“更多数据、更多智能”原则适用性的Chat-GPT,只是这条新路径的起点,未来创新不必锚定GPT-4。他认为大模型仍有值得进一步开发的特性,这主要有三点:大模型微调难、计算复杂度高与应用模式受限、大模型无法利用外部复杂工具且生成信息缺乏依据。刘知远认为大模型的强大通用性使其有望成为智能时代基础设施,并介绍了其团队的OpenBMB开源社区,这一社区能支持中小型企业、团队更好地利用大模型。
刘知远做主旨报告
陈维良 高性能GPU赋能产业智能化
清华大学集成电路系校友、沐曦集成电路创始人陈维良从GPU产业出发,指出随着技术、计算形式和时代变化,算力需求与供给的矛盾越发突出,而高性能GPU将赋能AI发展。
陈维良将CPU与GPU进行对比,指出GPU以其强大的并行数据计算能力成为通用计算算力基础。他指出GPU的演进主要靠实际应用推动,其架构变迁通常是为了满足实际中的需求。其中,统一渲染器是GPU的革命性创新,其体系结构从固定流水线形式演变为可编程的并行计算机制,能对指令、纹理、数据精度等各方面提供更完善的支持。他强调,高性能GPU是大模型的算力支撑,业界在做芯片的同时要关注芯片的软件生态和兼容性,国产芯片想要取得进展,需要从“能用”走到“好用”、“易用”,软硬件协同设计、低迁移成本和高兼容性都是未来需要努力的方向。
陈维良做主旨报告
圆桌论坛 人工智能基础底座
分享之外,嘉宾们围绕“人工智能基础底座”为主题进行圆桌讨论,针对“如何在自身领域开展人机协同这一问题”发表看法,并回应了当下年轻一代对大模型流行取代个体的担忧。总体而言,AI时代下,人应当更积极地进行反思、直面挑战,发掘自我价值中的创造性,发挥自身不可被替代的优势。
“人工智能基础底座”圆桌讨论,刘知远(左2)、李建文(左3)、黄民烈(右2)、陈维良(右1)
变革中的人工智能应用
Session 3 嘉宾们围绕“变革中的人工智能应用”主题进行分享。
杨帆 AI 2.0 ——大模型带来的新时代浪潮
清华大学电子工程系校友、商汤联合创始人、商汤大装置总裁杨帆重点介绍了人工智能领域的重大科技突破和即将引领的新一代技术革命内容。他梳理了AI领域在科学技术、内容生成和自然语言处理三个重要方向的突破:科学技术领域包括生物与生命科学、等离子体物理、材料分子模拟和药物研发等进步;AI内容生成即AIGC领域,主要与绘画、泛娱乐和医疗相结合;自然语言处理工具目前以Chat-GPT最为出名,可以和在线社交、传媒、医疗等领域融合发展。
杨帆认为,AI技术不断迭代的背后是大模型、大算力和大数据的支持,而AI技术的不断发展也对算力等人工智能基础设施产生了更多的需求。他介绍了商汤Sense Core大装置AI云及AI开发平台产品,并表示未来人工智能生产范式将迎来重大转变,从传统软件小模型时代转变为大模型时代,也将会颠覆既有行业的发展逻辑,触发新的商业变革,AI产业也将迎来一个更繁荣的“大航海时代”。
杨帆做主旨报告
张鹏 预训练大模型:生成式AI时代的基座
清华大学计算机科学与技术系校友、智谱AI CEO张鹏从大模型背景出发,他介绍预训练大模型是新一代人工智能应用的基础设施,其通用能力强并正在向多模态发展,已成为各国人工智能技术新方向,因此我们亟需建立以中文为核心的超大规模预训练模型。
他进一步以ChatGPT背后的技术演变为立足点,分析了千亿大模型的普惠性难题和面临的种种挑战,并介绍了智谱AI GLM系列模型的新成员——中英双语对话模型 ChatGLM-6B,可以进行多轮问答、文字冒险游戏甚至创作剧本杀剧本。此外,智谱AI也推出了认知大模型平台Bigmodel.ai,形成AIGC产品矩阵,包括高效率代码模型CodeGeeX、高精度文图生成模型CogView等,提供智能API服务。通过认知大模型链接物理世界的亿级用户、赋能元宇宙数字人、成为具身机器人的基座。最后,他认为大模型的智能涌现仍未看到极限,如果要让机器像人一样思考,人工智能还有无限的发展可能。
张鹏做主旨报告
李力行 AIGC for Code
北京硅心科技有限公司(aiXcoder)COO李力行介绍,aiXcoder是一款基于深度学习模型的智能编程机器人,其主要内容包括两个方面:代码和意图。当给代码分析意图时,这个过程就是程序理解;当意图可以自动生成代码辅助时,这个过程就是代码自动生成。为了解决这两个问题,团队更多基于采用深度神经网络的技术,通过构建专门针对代码的深度模型,经过大量与代码数据学习的训练,最终解决在软件开发中的各种子任务。李力行介绍,他所在的团队是最早介入程序分析和程序生成领域的团队,在开创性的工作后,团队一直保持对代码生成和代码理解方向的聚焦,尝试探索更多的子任务和进一步的产业实践。
在研究和探索外,团队也一直坚持整套技术的产品化,最新的模型可以根据自然语言描述自动生成完整方法代码,还可以自动组合、裁剪已学习的代码来匹配给定需求。最后,他抛出了一个问题:模型越大越好吗?根据团队实践,李力行认为,从本质来说,代码和自然语言的差距决定了现在还很欠缺针对代码的深度学习模型。
李力行做主旨报告
胡一川 大语言模型如何重塑数字化劳动力
清华大学电子工程系校友、来也科技联合创始人兼CTO胡一川从数字化劳动力入手,分析了大语言模型对培养数字员工能力的作用。他认为,因为工厂自动化程度远高于办公室自动化程度,而且适龄劳动力人口持续下降,市场对数字化劳动力的需求也愈发紧迫。数字化劳动力主要依托新型技术来完成企业对前端用户及内部员工的服务优化,以及中后台运营协同作业等任务。
传统劳动力与数字化劳动力相结合,可为企业建立“智能员工队伍”,通过科技赋能传统劳动力提高生产效率,降低运营成本,并优化员工体验。他进一步介绍了来也科技的数字化劳动力平台,并表示大语言模型提供的通用的语言理解和生成能力和自然的人机交互方式都可以帮助数字化劳动力平台的建设,也将培养出更强能力的数字员工并简化其开发过程。他认为,未来大语言模型会重塑数字化劳动力的挑战,达到每个软件都具备对话能力、每个人都拥有数字员工的愿景。
胡一川做主旨报告
陈建宇 Building Humanoid General Intelligent Robots
清华大学交叉信息研究院(IIIS)助理教授陈建宇分享了构建人形通用智能机器人的愿景与技术,他指出,人形机器人在硬件和软件上都是最复杂的机器人,创造它也是机器人专家和全人类的梦想。人形机器人能完美适应人类社会与环境,拥有无限的应用潜力,未来也会定义新的商业生态。
他介绍了团队所研发的高性能、低成本人形机器人硬件本体,以及基于强化学习的人形机器人控制算法。通过结合强化学习以及人类运动数据,人形机器人将能先在仿真中实现快速奔跑、拟人步态行走、崎岖路面穿行等各种具有挑战性的任务,并最终实现从模拟到真实世界的迁移。
陈建宇做主旨报告
圆桌论坛 变革中的人工智能应用
分享之外,嘉宾们围绕“变革中的人工智能应用”为主题进行圆桌讨论,针对“人工智能应用如何在演进变革中的技术浪潮中找到深层发展的策略”、“初创企业在当下应该如何把握机会推出创新”、“GPT-4时代我们应该做教育”等问题,各自发表见解。
“变革中的人工智能应用”圆桌讨论,杨帆(左2)、张鹏(左3)、李戈(右3)、胡一川(右2)、陈建宇(右1)
论坛合影