文|《中国科学报》记者 赵广立
近日,国际顶刊《自然》杂志发表了百度在生物计算领域的突破性研究成果,并以“加速预览”(Accelerated Article Preview,AAP)形式快速发表。
这“待遇”与当初DeepMind提出AlphaGo、AlphaFold2时相同。
(资料图片仅供参考)
论文提出mRNA序列优化算法LinearDesign,对生物医学领域意义深远。这是中国科技互联网企业首次以第一完成单位的身份发表论文于《自然》正刊,也是AI应用于mRNA领域首篇CNS正刊论文。
这项研究由百度主导,并与论文合作单位斯微生物公司等共同完成。近期,百度生物计算团队接受媒体采访对这一成果作了解读,并披露成果背后的故事。《中国科学报》择其精要,特整理如下。
《中国科学报》:
能够在《自然》正刊发论文,大家都好奇你们做了哪些研究,做出了什么成果?
百度生物计算团队:
作为一种全新的疫苗类型,mRNA疫苗在研发中存在一个棘手问题:如何找到一个既具有稳定二级结构,而且还有效的mRNA疫苗。如果用“穷举法”寻找这样的稳定序列,计算量将会是天文数字,无异于“大海捞针”。为了解决这一问题,我们引入了人工智能技术和方法。
受自然语言处理技术启发,我们设计了LinearDesign算法。LinearDesign是一个mRNA序列优化算法,它最大的特点就是运用自然语言处理中的网格解析技术(lattice parsing),对mRNA疫苗序列进行优化,来提升疫苗稳定性和有效性。
这个算法实现了将AI技术与生物疫苗研发相结合。简单来说,mRNA序列是由碱基序列组成的,与一段语句是由单词排列组成的相类似,两者都会形成某种“结构”。
我们用AI技术,提前设计稳定mRNA序列的结构,再根据这些稳定结构“按图索骥”,去找到最符合要求的候选序列——这个过程就像是在一连串发音相似的词组里,找到最贴近语义的那一句。
这一创新思路成效十分显著。
实验表明,LinearDesign算法只需11分钟,就能锁定最稳定的新冠mRNA疫苗序列,不仅让疫苗研发更高效,也让疫苗研发更有成效——以新冠mRNA疫苗序列设计为例,对比疫苗公司提出的序列,百度算法设计的序列稳定性最多提升5倍以上,抗体反应最多提升128倍。
《中国科学报》:
你们做了哪些验证工作?结果如何?
百度生物计算团队:
我们分别做了新冠mRNA疫苗和带状疱疹mRNA疫苗这两款疫苗的验证工作,相关的生物实验是联合斯微生物一起开展的。实验数据表明,我们设计的序列在稳定性(体外mRNA半衰期)、蛋白质表达和抗体反应方面,均比传统方法设计的疫苗的基准序列有显著提升。这也证明了我们这个算法的有效性、实用性和普适性。
曾在美国Moderna 公司工作的计算RNA生物学家戴夫·莫格 (Dave Mauger)了解我们这个工作后,认为这种新方法“非常了不起”,说我们的“计算效率确实令人印象深刻,而且比以往任何时候都更加复杂”。
《中国科学报》:
这项研究是何时开展的?中间经历了哪些过程?
百度生物计算团队:
我们从2020年初就启动了这个项目。
新冠疫情刚开始的时候,我们就想利用算法技术做点事。2020年5月,LinearDesign算法就“诞生”了。为验证算法是否有效,我们邀请斯微生物作为合作方,合作推进了大量的生物实验,直到2021年底、2022年初,才形成完整的论文。
论文投稿是在2022年三四月份,没过多久,我们就收到了《自然》杂志非常正面和积极的第一轮反馈,编辑也给出了明确的修改意见。此后我们又补充了一些生物实验和文章内容,到2023年3月再次提交了修改稿,之后一个多月就收到了正式接收函,最终论文在5月份被“加速发表”。
《中国科学报》:
这项研究成果还有哪些潜在应用?
百度生物计算团队:
这项研究成果,实现了AI技术和生物学的跨学科融合创新,不仅有助于mRNA疫苗的研发,还将推动mRNA治疗药物、单克隆抗体和抗癌药物等方向的进展,具有多方面的实际意义和广泛的应用前景。
目前,百度已对外提供LinearDesign公有云服务,来助力科学研究和药物研发。我们认为,自然语言处理有很多非常强大的能力,未来还可以沿着LinearDesign这个思路,开发更多更强大的算法模型,用于解决目前制药、医疗领域的实际问题。
《中国科学报》:
设计和运行这个算法,需要什么样的算力?
百度生物计算团队:
这其实是个经常被问到的一个问题。
大家会觉得,这样一个高效的算法,是不是需要很高的算力?其实恰好相反,我们算法对算力的要求并不高。借助云平台的服务器可以轻松运行,甚至个人电脑都可以“跑”这个程序。
一般来讲,一台性能不错的个人笔记本电脑,跑两千个蛋白长度的序列是没问题的。
该算法参考了自然语言处理中Lattice Parsing算法
《中国科学报》:
既然如此,那是不是意味着普通药厂、初创公司都可以低成本地采用?
百度生物计算团队:
可以这么说。新兴的mRNA技术推进了诸如新冠疫苗、带状疱疹疫苗等疫苗和药物研发进程,而生物计算与mRNA技术的结合,正使得这一进程更加快速、高效,并可能为未来的药物研发提供全新思路。
早在2021年,百度就与国际生物制药巨头赛诺菲签订许可协议,赛诺菲可以利用百度LinearDesign平台,优化mRNA疫苗和药物,用于相关人类疾病的治疗与预防。为此,百度提供了多种服务方式,比如私有化部署和云平台服务,为药企和科研机构赋能。
《中国科学报》:
百度在AI+生物计算方面有哪些积累和投入?
百度生物计算团队:
在AI+生命科学领域,百度已有多年布局和投入。
2018年,百度就开始了对生物计算领域的探索;2020年1月,百度对外开放RNA二级结构预测算法LinearFold;2020年5月,mRNA序列设计算法LinearDesign面世;2020年12月,百度正式发布生物计算平台——飞桨螺旋桨PaddleHelix。
螺旋桨PaddleHelix针对生命科学领域的重要问题,如药物筛选、蛋白设计、疫苗设计、精准诊疗、机理研究、分子合成等,通过构建“数据+原理”双驱动的生物计算大模型技术,并基于大模型技术打造面向药物研发、疫苗设计、精准医疗等场景的产品工具,辅助生命科学领域的研究者和从业人员提升研发效率,降低AI技术的使用门槛,以更快速的推进科研成果转 化和在研管线的上市。
截止目前,飞桨螺旋桨PaddleHelix平台已开放文心·生物计算大模型技术,及基于大模型技术开发的多个场景模型,包括药物筛选、ADMET性质预测、分子生成、蛋白结构预测、多蛋白相互作用、多肽药物设计、mRNA序列设计和药物重定向等。
如前所说,2021年,医药巨头赛诺菲跟百度签订协议,利用百度的平台来优化mRNA疫苗和药物设计,未来百度在生命科学领域的多个算法模型,也有望能够进入更多的药物研发管线上,赋能科研。
可以说,《自然》杂志发表的LinearDesign算法,是百度深耕生物计算领域的一个标杆性案例。
《中国科学报》:
AI技术和前沿生物技术结合,需要AI人才和生物人才密切合作。在研发的过程中,合作是怎样开展的?不同专业人才的配比如何?合作过程中有没有遇到一些困难?
百度生物计算团队:
在AI人才和生物人才合作过程中,确实遇到了很多情况,因为这其中存在一个双向的“知识鸿沟”(knowledge gap)。
AI人才有算法模型的经验,但是往往缺乏对真实世界中生物问题的理解和经验,存在着“举着锤子找钉子”的问题。生物人才也不是非常了解AI领域的一些进展,所以也存在类似的问题。
具体到这个研发项目, AI人才和生物人才的占比接近于1:1,百度这边主要是以AI算法的人才为主,生物实验合作方主要以生物人才为主。当然我们也有同时具备生物计算和生物实验双重背景的专家的指导。
在这个合作过程中,有两点非常重要。
一是要有明确的分工,有明确的责权。比如在项目之初我们负责算法的研发,后续合作方的生物人才负责生物实验的验证。
二是需要互相碰撞、互相学习、互相迭代。我们在一年多的时间里,会定期召开讨论会,研讨生物实验设计、结果分析,双方都会有更新和反馈。在这个过程中,大家都学到很多。比如,现在我们对mRNA也由最初的“小白”变得对它有一些了解了。
未来,AI技术还将和各个领域结合,各方都应以更开放的心态不断碰撞和交互,这样大家就有机会成长为具有交叉背景知识和技术特长的综合性人才。