对话南航计算机学院副院长、iapr fellow张道强：如何高效提取脑影像的有效特征？｜cmai 2022 | 雷峰网-亚博电竞网

医学影像

2022/09/30 15:06

近日，2022年医学人工智能大会（cmai 2022）暨第二届“中国医学学术期刊发展”高端论坛召开。

本次高峰论坛邀请了多位顶尖医院的放射科主任及人工智能技术的权威专家，共同探讨人工智能技术在医学影像中的临床应用与科研进展，分享研究心得。雷峰网《医健ai掘金志》作为本次大会的支持单位，全程参与嘉宾的演讲内容与深度报道。

南京航空航天大学计算机学院副院长张道强教授作为本次大会的嘉宾，发表了主题演讲。（获取完整版演讲ppt，请关注微信公众号《医健ai掘金志》，后台回复“张道强”。）

2010至2012年，张道强曾在医学影像ai领军人物、上海科技大学生物医学工程学院创始院长沈定刚教授的unc idea lab团队中从事脑图像分类研究。2012年回国后，张道强一直专注于脑影像的智能分析。沈定刚教授曾表示，张道强是青年学者中研究医学影像ai最top的那一批人。

会后，雷峰网(公众号：雷峰网)与张道强教授进行了一次对话。他表示，相比安防等行业，深度学习技术在医学领域内的应用稍显滞后。回国两三年后，他开始将深度学习应用在脑疾病的医学影像研究中。

谈及脑疾病研究中面临的问题，张道强表示，脑疾病非常复杂、精细且种类繁多，不同的脑疾病如阿尔兹海默症（ad）与抑郁症等疾病之间也有相似之处，有些病人同时患多种脑疾病，常常难以分辨。

另一方面，用深度学习技术研究脑疾病，对高质量样本的需求量非常大，但脑疾病领域非常缺少高质量、有标记的样本。据张道强介绍，以ad为例，目前国际上最大的数据库andi也仅仅收录了一千例左右的样本。

为了解决样本量稀少的问题，张道强与多家医院合作，收集了大量不同站点的影像数据，通过迁移学习、对比学习等技术进行处理，克服数据偏差。

“2012年我回国后就非常注重与医院之间的合作，第一时间找到了南京本地的南京脑科医院精神科进行合作，近年来又陆续与南京鼓楼医院、山东大学齐鲁医院、清华长庚医院、301医院等多家医院达成合作。”

张道强介绍，除影像数据分享外，其团队还按照医院需求提供算法解决临床问题、与医院共同培养学生、共同研究新技术在医学影像上的应用，进行了诸多合作。

沈定刚教授回国入职联影智能与上海科技大学后，张道强与联影智能和上海科技大学也有共同的研究相关课题、申报研究成果等。

除样本问题外，脑影像特征的提取也是研究中的难题之一。三维的脑影像体量十分庞大，往往难以从中提取出有效特征。

为此，张道强提出多模态技术，对脑影像进行预处理，将影像中的一百多个脑区进行标记、配准，分割灰质、白质及脑脊液。

考虑到在ad研究中脑脊液对灰质的影响更大，他以一百多个脑区中的灰质体积作为有效特征，从结构影像的几百万个特征中筛选出一百余个。

而针对功能影像pet(正电子发射型计算机断层显像)，则是以每个脑区中的平均灰度值为有效特征进行筛选。

据此，张道强构建起不同的核矩阵，在核矩阵的层次上通过多核的融合实现多模态的分类。

随着深度学习技术的发展，张道强也逐渐将图论、图神经网络等前沿技术应用到脑影像的研究之中。

2018年7月南航成立人工智能学院，与计算机科学与技术学院合署办公，学院现有计算机科学与技术、软件工程、网络空间安全3个一级学科博士点，院内师资一百二十余人。

张道强介绍，“在人工智能领域，南航在国内还是比较有影响的。”

张道强的博士生导师，中国人工智能学会机器学习委员会主任陈松灿也在南航计算机学院任教，同时陈松灿还担任着江苏省人工智能学会常务副理事长。

经过十余年的发展，目前学院内进行医学ai研究的团队已有十余人，包含脑疾病、骨科、超声、磁共振、病理图像等多个领域。

南航计算机学院的学生近年来也在国际会议上崭露头角。2019年10月，博士后邵伟在miccai大会上展示了他在联合基因影像数据进行预后预测上的研究工作，并获得大会青年科学家奖。邵伟也是当年五位获奖者中唯一国内的青年科学家。

在今年的miccai大会上，张道强课题组的博士生左英立同样斩获了青年科学家奖。

医学影像领域的华人学者在国际学术界的身影越来越活跃，2020年以来，张道强当选iapr fellow、

李纯明、李乐、蒋田仔等多位学者陆续当选ieee fellow。

张道强对此也深有感触：“我十几年前第一次参加miccai的时候，华人面孔还非常少，占比只有四分之一左右。”

而最近几年这一领域的华人学者明显增多，今年的miccai会议上有多位华人学者获得青年科学家奖，“这些事实都表明我国医学ai的研究已经接近世界前沿水平了，甚至某些方向已经超越西方国家。”

张道强表示，医学ai在国内的发展有更多的机会，“相比欧美国家，我们能够获取更多高质量的数据，加之政策支持，以及大体量的研究者不断加入这一领域，我相信医疗ai在未来会发展得更好。”

以下是张道强教授的演讲原文，雷峰网《医健ai掘金志》进行了不改变原意的整理。

我是南京航空航天大学的张道强，今天我给大家分享的题目是《脑影像智能计算以及若干应用的研究进展》。

首先我们来看为什么要研究大脑？我们知道大脑是人体最复杂也是最重要的一个器官，如果我们把大脑比作一个可以计算的机器，大脑是我们已知的客观世界里最复杂的一个机器。

正因为如此，包括美国、欧盟以及中国在内的诸多国家对脑科学计划都非常关注，中国的脑科学计划也已经正式开始实施。计划的主要构造都是大家熟知的，了解脑、模拟脑（即类脑智能）、保护脑（即脑疾病的防治）等方面。

脑影像是研究脑科学一个非常重要的工具，根据维基百科的定义，脑影像包括各种各样直接或间接对大脑的结构和功能进行探测的各种技术的总称。

从这个定义我们也可以看出来，脑影像分为两大类，一类是结构的脑影像，在医院做检查时的x光、ct以及核磁共振等都属于结构的影像。

另外一类是功能影像，比如功能磁共振、pet等等。

这是磁共振以及其成像的显示。

这是pet以及它的成像显示。

我们其中一个应用就是围绕脑疾病的诊断，重点研究阿尔茨海默病，也就是俗称的老年痴呆症。

老年痴呆症简称ad，是最常见的一种脑疾病。到目前为止，这一疾病还没有有效的治疗手段，随着疾病的发展，最终会导致人的死亡。

65岁以上的中老年人群体患病风险比较高，现在世界上有4000多万、接近5000万的ad患者。

据世界卫生组织的预计，到2050年，也是本世纪中叶，全球每85个人中可能会有一人患ad。

左下角是一个非常形象的示意图，我们把一棵树的树叶比喻成神经元。

大家知道我们的神经元细胞和其他细胞不一样，从人出生以后它的数量就不会再增加了，到了青年阶段以后数量就会不停地减少。

中间的树代表的是mci，即轻度认知障碍，右边的树代表的就是ad。在这个阶段，神经元细胞就像图中的树叶一样，已经死亡了一大半，所以会对认知功能产生很大的影响。

这是患ad疾病的一些名人，包括政治精英、文豪以及科技界获得诺奖科学家等很多权威人物。

第一张图给出了正常人的半脑和ad患者的半脑的示意，左边是正常的半脑。

我们对比来看的话， ad首先是导致大脑有非常明显的萎缩。我们再进一步观察和语言、记忆相关的一些脑区，会发现ad使大脑变得非常平滑。

正常人的大脑有很多脑沟、脑回，将表面拉伸后面积是非常大的，因为我们大脑要容纳大约1000亿个神经元，每个神经元平均要和大约1000个神经元细胞要产生连接，所有的神经元和神经元之间的连接都要容纳在大脑之中。

第二张是微观图，显示了我们现在比较公认的两个和ad相关的特征，一个是神经纤维的缠绕，另一个是淀粉样的沉淀，都能够通过生化检测发现。

这是一位画家早期的自画像，以及患ad后每一年给自己画的自画像。

可以看出来，在这位画家患ad之后，随着疾病的进展，越到后期疾病对他的大脑的空间认知能力影响越大大，晚期时已经基本没有完整的空间认知感。

另外我们还可以用眼动仪来揭示正常人和ad患者看同一张图片时大脑的不同理解模式。

图中不同的圆圈是人在看这张图片时视觉焦点的位置、大小以及停留的时间。

这张图是正常人的模式，首先关注图片中感兴趣的目标，比如建筑物、沙滩上人等等，所以在这些地方停留的时间较长。

这张图是ad患者的模式，他没有去关注沙滩上的人、建筑等目标，反而有很多时间集中在大海这些没有太多意义的位置。

这条曲线给出了各种不同的生物标志物对ad的诊断能力，横坐标是从正常到临床前期，再到轻度认知障碍和最后的痴呆的时间变化，纵坐标表示不同的生物标志物对ad的检测能力。

从这张图我们可以看出来，一些影像相关的生物标志物，包括pet、fmri等都有很高的早期诊断能力。

与之相对比，图中最下面的一条曲线是我们临床上用的一个打分函数，如mmse和adas-cog，但这种方式一般需要在患者出现非常明显的症状之后，到晚期痴呆的阶段量表上才会出现较大差异。

到了痴呆的阶段，已经没有有效的治疗手段能让患者恢复到mci或正常状态。所以我们一定要在mci或更早期对这一疾病进行早诊断、早治疗。

在mci阶段仍有一些手段能够对大脑进行干预，延缓从mci到ad的转变，提高病人生活的质量。

从曲线图来看，基于影像特别是多模态的脑影像技术对ad进行诊断是非常重要的，这方面也有很多的工作，时间关系我们在今天的报告里面主要向大家汇报一大类：基于脑影像构建脑网络，再对脑网络进行挖掘、分析和分类，从而实现诊断的技术。

现在有一个新的提法叫做“脑连接组学”，brain connectomics，主要关注大脑的不同区域和区域之间的连接。

我们认为，包括疾病的患病机制在内的大量信息，不仅仅取决于不同的脑区，更多的是取决于脑区之间的连接。

连接类型包括三类。

一类是结构连接，比如说如果我们有dti影像就可以很方便地构建一个结构连接网络；更多的情况下可能是功能连接，比如我们拿到的一些磁共振数据，可以从上面构建功能的连接；还有一类叫做有效连接。

我们主要关注结构和功能的连接。

这是一张简易的图片，我们从脑影像出发，首先要建网，把脑网络构建起来。然后从脑网络中提取特征，做特征抽取、特征选择，最后利用分类器，将选择好的特征进行分类。

我们现在有一些非常高级的技术，比如现在非常火的图神经网络就可以直接对脑网络进行学习。

这是比较早期大概10多年前，通过脑网络做个体分类的工作。

早期的工作主要还是基于我们图论相关一些研究，在2011年这篇论文中，首先把影像构建成一个网络图谱，然后提取每个图谱的顶点局部聚类系数，将其作为一个特征。提取完所有的特征后将其拉成一个向量，用支持向量机（svm）进行分类。

在2014年左右，我们就提出使用机器学习中一个非常重要的概念graph kernel ，图核，大家可以理解成是度量两个网络之间的拓扑相似性，基于此我们也得到了不错的效果。

但是在2014年工作中，我们是把机器学习中现成的图核拿过来使用，但这个图核有一个缺点：缺少特异性。

左边图片中的两个图形上有标签做出的标注，如果去掉标签将图形反转，两个图是同构的。但是在脑网络中的节点则具有唯一性，这是脑网络非常重要的一个特性。

我们考虑到节点唯一性这一特点后，在2018年研究工作中又构造了一个新型的图核，可以根据脑网络进行定制。

这个图核在mci和正常人的分类，以及mci早期转变和不转变的分类中也取得了不错的效果。

在如何构建脑网络方面，我们把每个脑区的时间序列相加，得到每个脑区的平均时间序列，然后对不同脑区之间的平均时间系列做一个k型相关，以这一相关系数作为两个网络连接连接矩阵的对应位置的值。

但这种方式也有一个非常明显的缺点，无法反应两两之间的交互关系，不能刻画二阶或更高阶以上关系。

我们还需要新的工具。在2016年的工作中，我们引进了超图的概念。

彩色的部分就是一个超图。超图和简单图形的顶点是相同的，相比左边的简单图形，超图最主要的区别在于其边缘部分变成了超边，每条超边可以有两个以上的顶点相互连接。

超图以每条超边对应的几个顶点的邻接矩阵来表示，当超边恰好只包含两个顶点时，对应的数值是0，如果超边包含的顶点数量大于2，对应的数值是1。

这是一个用超图来实现基于超网络的脑疾病诊断的框架。首先从影像构建一个超网络，再从超网络中提取特征，最后利用特征进行分类。

我们在mci数据上做了验证。这里的cn-cc是一个经典的简单图，体现其具体系数。hn-hcc是构建超图后，将简单图的局部聚类系数推广到超图中。

这三种不同的提取形式，都取得了非常大的进步。另外，我们将这三种特征融合起来，才能得到高达百分之九十几的精度，大大超过了传统的简单图的特征。

此外，超边也可以作为一种新型的网络度量来表达正常网络与mci网络之间的差异。

在2018年的工作，我们直接从加权的网络中进行特征挖掘，提出了一种有序的模式。什么是有序模式呢？

大家看中间的图，每条边都有权重，按照传统的方式或前面提到的一些复合方法，都是要找一个阈值，比如小于0.5的边缘就抛弃，这种方式损失了大量的信息。

另外找一个合适的阈值其实也是非常难的，我们就直接对加权的网络进行挖掘。

我们提出的方法叫有序模式，考察任意两条相邻的边，如果它满足边缘的权重的有序关系，就将这两条边做为有序模式。

我们从正常人的网络和患病的病人的脑网络中提取一个频繁的有序模式，另外我们为了实现判别，还将正常人和患病的人脑网络中相似的频繁模式筛除掉，只留下判别性的频繁有序模式，将其作为特征进行分类。

我们在儿童多动症患者的脑网络上进行了验证，基于有序模式在加权网络上进行挖掘，不论是acc还是auc都得到了比传统方法更好的效果。

另外像超边一样，如果得到有序模式，可以作为一种新型的一个网络生物标记来判别患病的人和正常人之间脑网络的差异性。

在此基础之上，我们把有序模式的概念和图核结合起来，提出一种新的基于有序模式的图核，进一步提升了性能。下面就是展示有序模式如何构建图核。

另外我们还借鉴了计算机网络中hub的节点。在局域网中hub节点如果被攻击了，整个的局域网可能就会陷入瘫痪。

在我们的大脑网络里面，海马体等位置都属于比较重要的脑区，我们通过算法找出重要的节点，在此基础上做进一步的网络分类。

当同时有结构网络和功能网络时，还可以将其进行融合，得到更好的分类效果。

另外，我们还可以研究网络，特别是功能网络的动态关系。

这里我们采用了时间滑动窗构建不同的网络，每隔一个时间窗口构建一个网络，研究它的持续和动态关系。

在今年的最新工作中，我们还研究了通过挖掘一致性的连接组的特征进行多中心、跨中心的分类。

在动态网络表示方面，我们在今年tmi上面也有最新的工作分享，时间关系这个地方就不再做进一步的介绍。

除了脑疾病诊断之外，在脑影像智能计算或分析中，大家也比较关注将影像脑影像作为内表型，挖掘和基因之间的关联，也就是借助影像找出和ad易感相关的基因。

反过来通过基因也可以帮助找到ad相关的脑区或是子网络，以及表型上的信息，现在可以联合起来进行多模态的包括基因和影像的诊断。

影像遗传的基因信息主要是以单核苷酸多态性为主，简称snp，是非常高维的数据。

因此对建模提出了非常高的要求，因为建模时输入输出的基因影像都是高维的。

我们在2018年的一篇基于统计学习的影像遗传学方法的中文综述中，将现有的影像基因关联方法归纳为4类，第一类是多基因单脑区，第二类是单基因多脑区，第三个是多基因多脑区，第四个是多基因多脑区之间的动态关联。

针对前面讲的4类，我们分别开发了一些方法，时间关系不再做进一步的介绍，大家如果感兴趣的话可以关注亚博电竞网的论文进一步了解。

非常有意思的是，不只能做基因和影像、脑区之间的关联，还可以将影像变成脑网络之后，找出基因和脑网络之间的关联。

今年我们在自然通讯上有一个最新的工作，利用多模态的网络和基因做了一个用于精神分裂症的多基因风险相关的研究。

最后一个应用主要是关注脑解码，和疾病没有关系，主要是关注正常人的认知方面。

大家看右上角这个图，被试者在看到不同的物体时，脑子里会有不同的响应。

如果我们用fmri将被试者做认知的过程记录下来，比如说看到鞋子和猫的照片时，用fmri记录下过程，我们就知道这一段fmri对应的是鞋子，另外一段对应的是猫。

从机器学的角度来讲，我们收集了很多fmri的样本，对应的标签就是图像的类别。我们可以构建一个分裂器，当分裂器训练好以后，被试再看到新的图片时，扫描被试的大脑并将fmri传入分裂器中，分裂器就会预测出被试者看到的图像，从而实现解码。

这是对分类的解码。还可以有比分类更加复杂的解码，比如将看到的图像进行重建。

解码的过程中有一个关键的挑战：不同的被试之间差异非常大。

比如说左上角和左下角的两张图，同样是看到一张人脸，第一个被试的相应模式在第二象限，第二个被试在第三象限。对建筑、动物等图像也可能有类似的结果。

这时我们就要进行hyperalignment，通过一些配准使其进入同一空间，使不同的人对同样的物体的响应在相似位置。

关于hyperalignment有一个经典的描述，和机器学习的典型相关性分析cca非常类似。

在2017年我们做了一个工作，就是推广了hyperalignment技术。

原始的hyperalignment在fmri空间中，我们的方法先将其推从fmri空间推广到高维空间，通过渗透神经网络将其映射到高维空间中，在高维空间中做hyperalignment ，我们称之为deep hyperalignment，也得到了较好的效果，具体细节我们不说了。

我们在公开的open fmri的数据集对多种任务做了验证，我们的deep hyperalignment的方法也得到了较好的结果。

围绕hyperalignment，我们最近几年有些相关的工作。

比如在2020年我们采取了一种共享的空间迁移学习技术，对多站点的fmri数进行分析，还开发了一个叫做easy fmri的工具箱，对fmri进行特征提取、可视化等处理，欢迎大家来试用这个工具，我们也把它开源了。

除分类的解码之外，有些学者已经开始研究重建的解码。

就像我们左图所示，当被试者看到物体时对大脑进行扫描，将被试者看到的物体进行重建。

比如说右图所示的阿拉伯数字6和9，对被试者的大脑进行扫描，将fmri对应起来。通过深度神经网络来做学习映射。

我们在今年的tcds上的工作，就结合lstm等技术实现了较好的重建效果，通过算法自动预测被试者看到的东西。