报告主题:人工智能赋能药物创新
报 告 人:徐峻教授
时 间:2023年6月18日上午9点30分
地 点:工科E1712
报告摘要:
传统药物创新寻求高效、靶标选择性的药物(即target-based drug discovery, TDD)。概括为“一药一靶治一病”。TDD范式认定基因产物(蛋白质)的“活性”与“表型”之间有“直接因果关系”。为了确定此类因果关系,首先根据已有知识选出可能与“因果关系”相关的变量对,然后通过实验确定“因”(自变量)和“果”(应变量)。传统的因果链条短而简单,QSAR等传统方法虽不理想,仍然是探索简单因果链条的有效工具。
人类基因组计划完成之后,生命科学和技术突飞猛进,高通量合成和测试技术产生了大数据,新的变量层出不穷,“因果关系链条”变成“复杂的网状结构”。“一药一靶治一病”的理念被系统和网络调控理念取代。厘清从大数据中提取的巨复杂变量关系,确定此类关系的性质(即,直接关系/间接关系、因果关系/非因果关系)是传统QSAR或人工智能技术不可能完成的任务。
GPT的出现为解决上述问题提供了颠覆性的思路。就像NLP从“基于语法规则编程的翻译思路“切换到”基于语言张量空间变换的翻译思路。药物创新的思路也可以从“基于简单因果关系的创新“切换到”基于分子-性质张量空间变换的创新“的思路。基因组是关于生命的语言(语素为一段核酸序列或氨基酸序列),药物和内源性小分子是与生命对话的语言(语素为药效团,其本质是分子的子结构)。这样,蛋白质的一维序列是一种语言,蛋白质的三维结构是另一种语言。而蛋白质三维结构从头预测问题则变成将一段蛋白质序列从序列张量空间到三维结构张量空间的一次映射,这就是AlphaFold2成功的秘诀。
GPT应用于药物创新的主要步骤包括:基于高质量的大数据集构建的张量空间,构建Transformers实现从分子特征到生物性质的张量空间变换。GPT在发现事物之间的“统计关系”方面远远超出传统的QSAR方法。然而,药物创新中的“因果关系”确定仍然重要,GPT的重要性在于它通过高通量地发现“统计关系”而提升确定“因果关系”的能力,为药物创新带来重大变革。
报告人简介:
徐峻,中山大学教授、药物分子设计研究中心主任、英国皇家化学会会士、广东省数据科学与技术及其应用重点学科负责人、美国匹兹堡大学和澳大利亚墨尔本皇家理工大学兼职教授。 1989年毕业于中国科学技术大学。1990-1993年分别在澳洲国立大学、加拿大麦基尔大学做博士后研究。历任美国TRIPOS分子设计公司资深科学家,BIO-RAD萨特勒实验室研发部总监,德国Boehringer Ingelheim制药公司药物设计主管科学家,美国BioFocus-DPI制药公司药物设计总监。研究领域横跨化学、药学和信息科学。长期在第一线从事分子信息学算法研究和药物发现实验研究。上世纪80年代末做硕士和博士论文起,研究人工智能和图论算法及其在化学中的应用,开始发表人工智能算法(人工智能辅助有机合成路线设计、分子结构线型编码)、图映射/子图匹配/超图匹配统一算法。90年代发表分子图识别算法GMA、解析蛋白质多维多量子NMR谱的模糊图算法CPA;2000年代发表的巨量分子图簇分析算法SCA、分子类药指数算法DLI;近年来发表的分子三维叠合并行算法WEGA、用于分子结构大数据挖掘的子图从头生成算法DSGA、小分子晶体结构预测算法。这些算法中的大部分已经成为国际主流分子信息学系统的核心引擎。
2019年以来,徐教授的团队在深度学习算法应用于药物发现领域已在国际主流杂志发表10多项重要成果。在方法学研究基础上,发现了多种抗代谢疾病药物、抗癌、抗γ型人类疱疹病毒的先导化合物,进入临床前研究。徐峻2009年归国创建中山大学药物分子设计研究中心,该机构由药物设计、结构生物学、天然药物化学、药物筛选与机理4个实验室和化合物储备中心组成。徐峻是国家“新药创制重大科技专项”、广东省生物大数据重大专项、广州市药物创新重大科技专项的主持人。以第一或通讯作者在国际主流杂志发表研究论文130多篇,药物发明专利30多项。
青岛软件学院、计算机科学与技术学院
2023年6月16日