百图生科首席ai科学家宋乐：ai，帮助制药人逃逸“双十”怪圈 | 雷峰网-亚博电竞网

2021/12/31 16:47

7 月 30 日，成立不到一年的百图生科（biomap）宣布完成上亿美元的 a 轮融资，这家由李彦宏牵头发起并亲任董事长、原百度风投 ceo 刘维作为联合创始人兼 ceo 掌舵的「中国首家生物计算驱动的生命科学平台公司」向外界放出雄心：

公司致力于用高性能生物计算和多组学数据技术加速创新药物和早筛早诊等精准生命科学产品的研发，力图让更多疾病可预警、可控制、可治愈，为行业提供更好的生物地图（biomap），帮助药厂找到化合物，帮助医生找到生物标志物，帮助科研人员找到各种生物数据背后的意义。

不久之前，国际机器学习大牛又宋乐加入李彦宏生物计算军团。为世界知名机器学习专家，他领导着百图生科 ai 算法团队，为独具特色的生物计算引擎研发提供技术动力。

宋乐博士是著名的机器学习和图深度学习专家，曾任美国佐治亚理工学院计算机学院终身教授、机器学习中心副主任，阿联酋 mbzuai 机器学习系主任，蚂蚁金服深度学习团队负责人（p10）、阿里巴巴达摩院研究员，国际机器学习大会董事会成员，具有丰富的 ai 算法和工程经验。

自 2008 年起，宋乐博士在 cmu 从事生物计算相关的研究，利用机器学习技术对靶点挖掘、药物设计取得了一系列突破性成果，获得 neurips、icml、aistats 等主要机器学习会议的最佳论文奖。社区服务方面，他曾担任 neurips、icml、iclr、aaai、ijcai 等 ai 顶会的领域主席，并将出任 icml 2022 的大会主席，他还是同行评议期刊 jmlr、ieee tpami 的副主编。

近日，由雷峰网(公众号：雷峰网) & 医健ai掘金志主办的gair「医疗科技高峰论坛」在深圳正式召开。

这一次，医健ai掘金志以「医疗ai的破局与新生」为主题，将话筒传递给四位院士、5位ieee fellow、19位行业领袖，由他们以分别从历尽铅华的医学影像ai、和风劲正浓的ai制药两大赛道出发，为行业的发展提出自己的判断。

论坛之上，百图生科首席ai科学家，icml 2022大会主席宋乐，以《用人工智能赋能新药研发》为题，发表了一场演讲。

宋乐教授提到，大家在憧憬ai可以在新药发现领域展现巨大作用的同时，还有三个问题要提前考虑。

第一个挑战，了解复杂疾病的困难。例如胃癌，因为胃连接不同器官；细胞层面上，每个器官有不同细胞进行不同作用，细胞之间通性也是很复杂的网络；分子层面，细胞里有各种各样蛋白质等分子产生相互作用，也形成了很复杂的网络。所以，如果为一种胃部疾病找合适治疗靶点，就需要对整个网络有透彻的了解。

需要测量每一个环节、每一个尺度，包括整个机体组织尺度，整个组织的切片，细胞之间如何通信，如何表达这些基因。甚至要看到细胞里的蛋白质互相作用，收集这些数据会非常复杂。

例如，需要测量单个细胞基因表达量，蛋白质表达量。甚至还需要同时测量单个细胞基因表达、不同细胞在空间、组织里面的表达。

第二，对于包括基因层面的基因测序、表观组，蛋白质表达、蛋白质代谢，组织层面、机理层面等多维度、多尺度的数据，如何进行复杂且多样化的融合处理。

传统方式是对每个维度分开分析，再通过人来做整合；现在可以用ai将多尺度、多样化数据整合。除了数据多样性问题，数据量增加也非常快，生物数据每7个月翻一倍。

第三个挑战，行业配合问题。数据分析与实验往往是两波人，他们之间的沟通缺乏一个非常高效的系统，将预测、模型输出和试验系统进行整合，加速迭代。

通常情况下，都是数据分析员根据根据已有知识在脑海里形成假设，然后让实验员做实验；有了数据后，再给数据分析团队分析，验证假设是否成立，决定下一次实验。

整个实验-数据分析-模型环节比较开环，但不是完全开环，缺少一个非常高效的系统，将预测或模型输出和实验系统整合，加速迭代过程。

以下是演讲的全部内容，雷峰网做了不改变愿意的整理和编辑：

今天我分享一下对人工智能赋能医药的理解以及行业现状，人工智能在这个领域能做些什么。

首先，这个行业面临很大的挑战，我将其定义为双十挑战。

第一，医药研发漫长；每个新药从研发到上市需要10年时间甚至更多，药物筛选过程非常艰难。

很多药物都是小分子或蛋白质，种类极多，筛选空间甚至有10的60次方，从这么大范围找出最终的药物分子，并推到上市，其实非常艰难。

计算节点上，要从10的60次方中找到1万种，再从里面选几百个做preclinical测试，之后再做临床试验，整个过程中每一步都有很高的失败率。

而且，前期筛选经常预测不到后期属性，导致产物后期无法使用，就要从头重新筛选，周而复始。

第二个“十”是指，开发一个新药大约需要10亿美金左右的造价。1950年还有很多比较容易治疗的疾病未被治愈，

如果当时有10亿美金投入，可以发现几十个药物。但现在面对的都是比较难的疾病，并且现在我们对药物的疗效、副作用减少的要求越来越高，监管要求越来越严。

所以10亿美金只能发现一个新药物。如果我们能把新药研发的造价降低、成功率提升的话，也可以节约研发经费，这个市场是巨大的。

所以ai新药研发面对的是一个非常广阔的市场，但大家在憧憬ai可以在新药发现领域展现巨大作用的同时，还有三个问题要提前考虑：

第一个挑战，了解复杂疾病的困难。例如胃癌，因为胃连接不同器官；

细胞层面上，每个器官有不同细胞进行不同作用，细胞之间通性也是很复杂的网络；

分子层面，细胞里有各种各样蛋白质等分子产生相互作用，也形成了很复杂的网络。

所以，如果为一种胃部疾病找合适治疗靶点，就需要对整个网络有透彻的了解。

例如，需要测量单个细胞基因表达量，蛋白质表达量。甚至还需要同时测量单个细胞基因表达、不同细胞在空间、组织里面的表达。

传统方式是对每个维度分开分析，再通过人来做整合；现在可以用ai将多尺度、多样化数据整合。

除了数据多样性问题，数据量增加也非常快，生物数据每7个月翻一倍。

但是传统方式分析效率却不高，所以就需要ai模型用hpc方式，把数据里有用或微弱的信息整合。

整个实验-数据分析-模型环节比较开环，但不是完全开环，缺少一个非常高效的系统，将预测或模型输出和实验系统整合，加速迭代过程。

为了解决这三个挑战，有必要形成一个ai-实验的闭环系统，把预测和湿试验的环节打通到同一个系统。

百图生科建立了干湿试验闭环的高通量平台，这个平台在ai模型有一个巨大的场景，可以整合现有的数据，产生异构的、复杂的知识图谱。

基于知识图谱可以进行ai模型拟合，或者整合这些数据并且产生预测。例如要探究某个蛋白质是不是某个疾病的靶点，或者我们设计出方案是不是针对这个靶点有效，直接发放给实验系统，收集到的可能是生物实验数据，可能是翻译的数据，甚至是图像数据，很快可以通过ai模型或者计算机视觉方法更新，再进行下一个实验。

接下来，我再介绍一下ai主要在每个环节可以做什么，大概分为三部分：

第一，在药物发现阶段找到新靶点；

第二，根据靶点设计新的药物分子；

第三，在试验闭环阶段进行交互学习。

下面具体列举几个案例：

第一个案例，ai找出目标蛋白质，例如在复杂蛋白质相互作用网络，或信号通路里找出蛋白质。

细胞膜上有很多蛋白质，阻断或激活膜蛋白的作用就会产生细胞间的生物作用。而且，每个蛋白质在不同疾病里，对应蛋白质表达单元也不一样。

寻找针对某个疾病表现的蛋白质，就需要把得到的细胞基因表达数据、蛋白质表达数据整合到同一网络里。

过去，有很多生物学家做了这方面研究，模型做得很复杂，将很多复杂的ai模型迁移到生物网络里。

例如在生物计算领域，蛋白质之间连接产生了非常复杂相互作用网络。

这个网络不单是两两蛋白质作用，也可能有三、四个蛋白质相互形成作用。蛋白质又关系到关键基因表达，每个节点有非常复杂的属性，就需要用图神经网络进行推理。

我们也可以借鉴其他领域的图神经网络模型，融合在一起学习更好的模型。

图神经网络是现在比较火的领域，大量搜索的经验都可以迁移到靶点发现领域，让靶点发现变得更有效，融合各种各样信息。

第二个案例，ai怎样针对靶点设计有效药物。一般药物都是有机小分子或大分子，或蛋白质或rna。

所以，设计药物就要涉及很多小分子性质和大分子结构预测。例如alphafold 2可以根据给定序列预测蛋白质结构。

蛋白质的结构对其功能、作用非常关键，如果知道蛋白质功能结构就可以更好了解其功能，所以，准确蛋白质结构对设计结构非常关键。

除了蛋白质，ai领域还能看到各种各样搜索。例如rna分子二级结构、三级结构，如果ai预测出这些结构对rna药物设计也有帮助。

除此之外，各种各样小分子以及它们的属性，毒性、水溶性，针对某一个靶点的有效性，也都可以通过ai模型预测。

其实，生物制药的数据形态与传统互联网差异较大，生物制药数据中很多是图数据，而传统互联网主要以网络数据、人的行为数据为主。

在生物制药领域，如果想对一张图结构数据进行预测，或者对生成的小分子、大分子等生物序列比对，就需要各种各样图数据模型和vae模型，甚至还要基于vae模型学习小分子表征，进行小分子搜索和优化。

除了预测结构和功能外，ai在小分子性质优化上也有很多应用，例如已知一个小分子是潜在药物，利用ai更高效合成这些小分子，这就涉及到ai模型和博弈数搜索的结合。

目前，ai在小分子、大分子的应用已经非常完善，alphafold2本身就是非常复杂的ai模型。

第三个案例，预测rna二级结构折叠，通过rna序列来预测结构。

我认为rna药物未来可能是ai制药非常好的应用方向。

这是rna二级结构预测演示，先输入rna序列，如果需要预测rna结构。就要在rna 序列远端位点折叠，使空间上比较接近，位点接近程度用接触图表征。

ai模型可以在其中基于序列输入预测接触图，目前最好的手段就是深度学习，它的完善程度甚至超越了一些计算机视觉类模型。

用ai分析这样的数据，首先需要对序列分析，例如可以通过自然语言处理模型表征生物学序列。

这时，transformer模型预测的是2d的结果，如果要生成图像数据，还需要做卷积神经网络产生特征，再预测接触图。

而且还要考虑结构的限制，alphafold 2就是采用类似的策略，这相比传统模型确实有巨大提高。

实验和ai模型闭环情况下，除了基因表达数据、蛋白质表达数据之外，ai还可以解决有细胞图像的数据。

细胞图像数据图像可能有六个频道荧光图像，如何基于荧光图像，描述出微妙的细胞状态变化，就需要做很多模型开发和设计。

此外，ai还可以提升一些信息含量比较高的实验的效率。

第四个案例，有效打标签。这不止是ai模型问题，也是系统设计的问题，而且也需要专家知识。

往往一开始只能获得少量精标签，训练一个尚可的模型。

但是如果让这个模型变成更准确的模型，就需要闭环的系统，让ai模型对大量没有标签的图像打标签，并呈现给无专业背景筛选，再给专家进行精标签；精标签打完后，再回流到ai模型更新，进行下一环。

整个过程如果在闭环情况下，就更有可能在少量精标签情况下，让模型继续对大量没有精标签的图像打标签。

此外，ai还可以输出分割标准，以及选择什么样图片打标签，在各个环节都有很多可以做东西，有很多可以提高的空间。

最后总结一下，我们目前面临的都还是非常复杂的问题，即使有很多观测手段，收集到大量数据，有如此多的ai模型，也还是杯水车薪。

未来，如何把ai模型、专家知识和实验手段结合在一起，还需要交叉学科的团队一起努力，希望感兴趣的同学加入这个领域，把生物计算交叉学科研究做得更好。

这是今天我想讲的就是以上这些，如果感兴趣，额外的信息可以关注亚博电竞网公司的公众号并访问我们的网站。谢谢大家！