统计,是一道能写出大文章的数学题。每一个分合整析背后,不仅仅是数字、符号的精密运算,更是对经济、民生、医疗等行业现状的深刻洞察;每一个数据模型的建立也并不简单,既有相关研究人员十数年学术知识的沉淀,也饱含他们想要以学报国的深刻情感。而这道令人着迷的数学题,东北师范大学数学与统计学院教授李子林已经解了近20年,直到今天,关于高维数据的统计分析方法和统计遗传学的疑难点仍然是他职业生涯的主旋律,“我希望可以用自身的研究成果助力中国人群大队列研究,推进国家在精准预防和精准治疗方向的发展,为实施健康中国战略作出自己的贡献,在百年未有之大变局中为中华民族的伟大复兴贡献自己微薄的力量,以数字筑架,述国民基因之貌”,这是心愿,更是行动。
李子林(2007级本、2011级博,数学系)
梁园虽好非吾乡
春华秋实,岁物丰成。2023年,在李子林决定离开美国时,他正在印第安纳大学医学院担任助理教授,在这之前,他一度在世界顶级学府之一的哈佛大学深耕了6年,师从国际知名统计学家、美国国家科学院和美国国家医学院两院院士林希虹院士;在国际遗传学知名期刊《自然·遗传学》(Nature Genetics)和《自然·方法》(Nature Methods)上陆续发表学术论文……这样的职业发展轨迹任谁来看都是熠熠生辉的,他却在一切都走上正轨的时刻毅然选择更换赛道,循着身体中流淌的中华血脉、抱着逐梦圆梦的如磐初心重归祖国热土,在众多一线城市高校抛出的橄榄枝中选择了回报桑梓——加入东北师范大学。“梁园虽好,实非吾乡”,对于自己诚挚、热烈也带些冲动的选择,他的回应始终只有这样云淡风轻却掷地有声的一句话。
而教会李子林这句话的,正是我国驰名世界的顶尖学府之一——清华大学。作为享誉国际的高等院校之一,清华大学在科研和教育上的成就本无须多言,但如果一定要用文字来描述它,则可以用无数种方法,可以是寥寥数字,也可以是长篇巨幅。不过无论如何试图去描述,结果都一样:对任何人来说,它都是个神秘的宫殿,里面藏着数不清的、挖不完的宝藏,或可见或不可见,浮光跃金、流动不止。而李子林从小就在心中种下过这样一颗种子。
少时的李子林在数学学科上就是有天赋且足够努力的,凭借着对奥数的兴趣一路“闯入”清华大学赫赫有名的“数理基础科学班”,但他始终保持谦逊,“小时候我身边有一群固定的伙伴一起学习奥数,他们后来也都各自考入了清华北大、复旦、上海交通大学等学校,并在各自领域都发展得很好,跟他们比起来我真的谈不上‘优秀’二字”。虽然择校后无法常聚,但无论是对于李子林还是他的伙伴,抑或是所有数学从业者而言,他们之间始终都存在着一种无言的默契,即数学从来都是助人“开眼看世界”的一个视角,是打造良好逻辑思维的锻造工具,而不是成绩单上令人瞩目的数字,更不是挂在嘴边逢人炫耀的“学习功绩”。也正是这样“兼容并蓄”的认知和胸怀,才让李子林在接触统计世界的风景之后,坚定地选择这一方向,为毕生事业打下地基。
大学三年级对于李子林而言像是一道分水岭,既结束了入校前两年数理共培的课程模式,让基础科学班的同学得以自主选择专业;也分隔了李子林所有的懵懂不定和彷徨不决,因为林希虹院士将遗传统计学带入了他的视野。“我还记得那应该是一次暑期活动,学校特意邀请了许多海外名师来做分享,林希虹院士就是其中之一,她深入浅出的讲解和成熟稳健的性格特征都给我留下了非常深刻的印象”,这成为李子林此后远赴美国跟随林希虹院士深造的伏笔。不过那时,他还只顾沉迷在相对基础的统计学理论知识点中,因为清华大学数学系在当时还没有设立专门的统计培养方向。“我选择和其他两名同学一起探索,到处旁听我们认为适合的课程,互相鼓励、有商有量,那是一段非常纯粹的学习时光。”直到今天,他们仍是李子林非常重要且密切的朋友,虽然彼此分别于本科毕业的2011年,但幸运的是此间友谊既长且坚,适时的联络让李子林得知他们均在各自的人生坐标上精耕细作、闪闪发亮。
如果说,清华博士二年级发表第一篇第一作者的学术文章标志着李子林在学术理论上的初步成熟,那么自2013年起在美国磨砺的十年就是李子林迈向实践之路的象征。其导师林希虹院士以将统计学方法和理论应用于医学和公共健康问题的相关研究闻名学界,不仅在2005年受聘为哈佛大学生物统计系终身正教授;还作为首位华人女性获奖者于2006年,将统计学界的“诺贝尔奖”——考普斯总统奖收入囊中,同时于2018年当选美国医学院院士,2023年当选美国科学院院士。“能够跟随这样的导师进行学习,我非常荣幸。”李子林诚恳地说道。
跟随林院士,李子林深刻了解到生物统计学的研究领域涉及关系医学、公共健康和生物医学问题的很多方面,其研究方法也包括假设建立,实验设计、取样、数据收集和整理,数据分析,模型建立,结论推断等诸多环节,是一门研究对象复杂、研究方法多样的学科。更重要的是,这一研究与人类健康事业关系密切。李子林深感自己重任在肩,因此反复实践摸索7年,直到2019年才发表了自己的第二篇第一作者学术论文。“其间如果说完全没有焦虑与担忧肯定是假的,但也正是这段卧薪尝胆般的日子让我明确了坚持的意义和重量。”十年磨剑终成锋,在不断试错、挑战全新数据结构的奋行之下,STAAR系列方法和工具顺势而生。
躬耕不辍付春华
“人类基因组由约30亿个碱基对构成,这是人类遗传学研究的核心,也是我所有工作的起源。”李子林介绍道。
近年来,随着测序成本的大幅下降,大规模的全基因组测序研究和生物样本库研究正在快速向前发展,例如美国国家心肺血液研究所20万人的精准化医学研究计划,美国国家人类基因组研究所的35万人的基因组测序计划,以及50万人的英国生物样本库。这些研究已经对上百万个全基因组进行了测序,并发现了近十亿个变异位点,其中罕见变异占比率超过了99%,也就是说,罕见变异正在成为复杂性状和疾病遗传力缺失的主要来源。而学界为了“侦破”罕见变异所带来的其他隐性改变,其相关研究与测序数据骤增至海量。若要轻松面对如此浩如烟海的数字架构,一个关键挑战就是缺乏全面、自动化、可扩展和高效的分析软件和工具;另一个挑战则是超过98%的遗传变异位于非编码基因组。也就是说,尽管在评估编码罕见变异对复杂性状的影响方面取得了一定的进展,但是非编码罕见变异分析仍存在较大的空白。因此,亟需针对基因组大数据中非编码罕见变异的统计分析方法和软件,以发现人类疾病和表型的遗传构架,找到导致疾病的遗传变异位点,开发新的药物靶标。
针对这一难题,在林希虹院士的指导及亲自带队参与下,李子林协同背后团队开发了大规模全基因组测序数据非编码罕见变异关联分析工具——STAAR pipeline。这是一款一体化关联分析流程,可自动化进行基因型数据与功能注释集成、关联分析及结果汇总和可视化。
“首先,STAAR pipeline应用FAVOR数据库和FAVOR annotator工具对全基因组数据进行功能注释。其次,STAAR pipeline自动定义罕见变体集进行分析,包括基于功能性分类的以基因为中心的分析(gene-centric analysis)和基于变异位置的非以基因为中心的分析(non-gene-centric analysis)。对于以基因为中心的分析,STAAR pipeline可提供基于8种非编码功能类别集的罕见变异分析;对于非以基因为中心的分析,STAAR pipeline则提供了滑动窗口分析和动态窗口分析。相比于经典的固定长度滑动窗口分析,动态窗口分析通过采用数据自适应长度提升了检验功效。再次,STAAR pipeline通过STAAR方法引入并整合了多组学功能注释数据,进一步提高了检验功效。最后,STAAR pipeline利用广义线性混合模型控制人群结构和家系结构的混杂影响,适用于包括连续型和离散型表型在内多种类型的表型数据,同时提供针对常见和低频变异的单体分析,并针对编码基因组提供基于5种功能类别集的罕见变异分析。”每每提及自己匠心独运的得意作品,李子林总是滔滔不绝,因其虽是统计学世界中走出的一小步,但却是他个人迈向更深远科学疆域的一大步。正如林希虹院士所一贯要求他们的那样:既要在统计学上严格,又要在遗传应用上好用。
2022年,李子林(左一)参加美国遗传学年会(ASHG)作分组报告
而李子林在美国时的数据分析进一步证明了这一点。据悉,研究团队已将STAAR pipeline应用于精准医学跨组学(TOPMed)全基因组测序数据中,高效地分析了4万人的9种表型。值得注意的是,STAAR pipeline在以基因为中心的非编码分析中发现了49个显著性关联,其中35个(71.4%)属于6个新的非编码功能类别集。动态窗口分析在非编码基因组中检测到43个非重叠的显著关联,比滑动窗口分析多了19.4%。这些结果都在向世人表明,STAAR pipeline是一个强大、资源高效且稳健的非编码罕见变异关联分析工具,应用于大规模全基因组数据和生物库样本库数据。
回国之前,李子林还陆续构建了首个全面的非编码基因组分析框架,突破了全基因组测序数据罕见变异分析的运算瓶颈;发展了全基因组测序数据罕见变异荟萃分析方法MetaSTAAR,突破了测序数据罕见变异汇总统计数据的存储瓶颈,实现了隐私保护下多个大规模全基因组测序研究的整合分析。虽然取得了一定的成绩,但他的目光却随着人生计划的逐步推进、回归祖国而投向了更远方,即面向世界科技前沿、面向国家重大需求、面向人民生命健康,为广大民众的健康福祉作出贡献,在躬耕不辍的“春日”中,将热爱的种子浇灌成花朵。
抱朴之心守秋实
眼下,虽然李子林加入东北师范大学仅有短短半年时间,但他已瞄准“未来赛道”,积极与各大高校和医院展开合作,旨在推广应用STAAR系列方法和工具分析中国人群的基因组大数据,构建疾病和复杂表型的遗传图谱。
“这是一个双向增长的共赢过程。医学研究人员仅需提供基因型和表型数据,STAAR工具便能自动完成全基因组分析,得到汇总后和可视化的结果。而通过不断更新的数据,我们也能尽快尽好地了解国人基因结构,为以后的迭代更新打下基础。”李子林强调。
有怎样的眼界,就能看到怎样的远方;有多大的胸襟,就能包容多大的世界。走在推广路上,李子林从不吝啬将STAAR系列的使用方法及配套技术广泛播撒。“授人以鱼不如授人以渔,对使用者来说,令人安心的‘售后’工作也是重要一环,我一个人或者说我的团队力量终归有限,因此不如沿途培养,当熟知的人足够多、口碑建立得足够稳固,也就意味着产品本身的成功,我的工作才有价值。”他说。
时间尚短,路程尚远,今天的李子林无法豪言通过统计学这根“金扁担”挑起国民健康发展。但天长日久,其心仍坚,慢性病易感基因的识别工作仍在开展,“精准健康”,即根据患者的遗传特征制定个性化诊疗方案的探索仍在酝酿,众多蓝海药物的新靶标也正在完善……基因组大数据研究在未来疾病预防、诊断和治疗方面发挥的关键作用毋庸置疑,而李子林相信,只要抱定一颗质朴之心,终能收获秋实。
___________________
李子林,东北师范大学数学与统计学院教授,入选国家级高层次人才青年计划。历任印第安纳大学医学院生物统计与健康数据科学系助理教授,哈佛大学生物统计系博士后、副研究员和研究员。本科与博士毕业于清华大学数学科学系,师从美国国家科学院与医学院两院院士林希虹院士。2023年当选为国际统计学会(International Statistical Institute)推选会员(Elected Member)。主要研究方向为高维数据中的统计方法理论和统计遗传学。相关研究成果以第一作者或通讯作者在Journal of AmericanStatistical Association、 Nature Methods和Nature Genetics等国际学术期刊发表。