1.3 人工智能辅助药物研发概况
人工智能早在20世纪80年代就已用于药物设计,如今,药物研发领域越来越多地采用深度学习方法作为主要的训练工具,而且在研发场景上也更丰富了。
2015年,Wallach等人推出了深度学习模型AtomNet,用以预测选择用于药物发现的活性化合物的结合亲和力。AtomNet是第一个采用卷积神经网络(Convolutional Neural Network,CNN)进行小分子结合亲和力预测的深度学习模型,使用了结合配体和靶标结构信息的新方法。不过,AtomNet需要用到配体和靶蛋白的三维结构,这些三维结构包含参与靶标结合位点相互作用的每个原子的位置。
2018年,上海大学的Mark Waller教授和德国明斯特大学的Marwin Segler博士等人在《Nature》杂志发表的文章中提到了一款可以通过自主学习有机反应来设计分子合成路线的人工智能工具。他们把3种不同的神经网络与蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)相结合,形成了新的AI算法(3N-MCTS),依赖自动提取的规则数据进行训练。在对2015年之后发表的435种复杂分子合成砌块的测试中,3N-MCTS算法能在单个目标分子限制时间为5秒的情况下完成80%的分子合成路线设计,当限制时间延长至60秒时,完成的比例提高到了92%。
2020年,斯坦福大学和默克公司的团队针对31个ADMET数据集系统比较了基于图卷积的多任务深度学习方法与传统基于分子指纹的随机森林方法,在31种ADMET数据集上进行了训练,并比较了随机森林和GCNN的结果在两种不同的交叉验证策略的测试集上的结果。结果显示,多任务深度学习方法预测准确性有明显提升。
蛋白质结构的测定是困扰生命科学领域长达50年的科学难题,特别是重要的靶点蛋白质结构解析。为解决这一根本问题,国际组织举办了蛋白质结构预测评估赛(Critical Assessment of protein Structure Prediction,CASP)。2020年,在CASP中,单体结构预测取得了重大突破,谷歌的AlphaFold 2在多个体系的预测精度已经达到可与实验结果比较的程度,并预测了人类98.5%的蛋白质;而此前科学家们数十年的努力,只覆盖了人类蛋白质序列中的17%。《Nature》杂志以“It will change everything”(它将改变一切)作为标题特别进行了报道,《Science》杂志连续两年(2020年和2021年)将其列为十大科学进展。结构生物学家施一公院士也表示,AlphaFold对蛋白结构的精准预测是人类在21世纪取得的最重要的科学突破之一。
在我国,针对人工智能在生物医药领域的突破性进展,科技部已经组织了两次香山科学会议,即2021年8月的“人工智能与结构生物学”学术讨论会和2020年9月的“人工智能与中医药学”学术讨论会。