心肌囊肿专科治疗医院

注册

 

发新话题 回复该主题

基于机器学习的心脏成像诊断 [复制链接]

1#
心脏成像在心血管疾病(CVD)的诊断中起着重要作用。但到目前为止,它的作用仅限于对心脏结构和功能的观察和定量评估。然而,随着大数据和机器学习的出现,人工智能方法的出现将直接帮助临床医生诊断CVD。本文全面回顾了这一领域的最新研究成果,并为读者提供了机器学习方法的详细介绍,这些方法可以被进一步利用,以实现大多数心血管疾病的更自动化、更精确的早期诊断。本文发表在FrontiersinCardiovascularMedicine杂志。引言尽管在诊断和治疗方面取得了重大进展,心血管疾病(CVD)仍然是全世界发病率和死亡率的最常见原因,约占每年死亡人数的三分之一(1,2)。早期准确的诊断是改善CVD预后的关键。心血管成像在诊断决策中具有关键作用。目前的图像分析技术主要依赖于图像的定性视觉评估和心脏结构和功能的粗略定量测量。为了优化心脏成像的诊断价值,需要更先进的图像分析技术,以便对成像表型进行更深入的量化。近年来,大数据的发展和高计算能力的可用性推动了人工智能(AI)技术在医学成像领域的指数级发展(图1)。基于图像诊断的机器学习(ML)方法依赖于算法/模型,这些算法/模型能够通过识别隐藏和复杂的成像模式从过去的临床案例中学习。现有的研究已经证明了基于图像的心血管疾病诊断在许多重要情况下的增量价值,如冠状动脉疾病(CAD)和心力衰竭(HF)。人工智能图像分析诊断的优越性能有可能通过促进更快、更准确的诊断决策,大大减轻心血管疾病的负担。图1,每年关于机器学习和心脏成像的出版物数量。这表明了未来研究的上升趋势。浅绿色条表示年末预计出版的出版物数量。在本文中,我们对设计、实现和验证基于图像诊断的新的ML方法和流程进行综述。我们还对现有文献进行了全面回顾,这些文献涉及ML在基于图像的CVD诊断中的应用。2.基于图像的机器学习诊断流程综述构建基于图像的心脏诊断的ML工具的整个流程在下一节以及图2中进行了示意性描述。简而言之,它需要(1)输入成像数据集,从中可以提取合适的成像预测值,(2)准确的输出诊断标签,以及(3)基于成像预测心脏诊断从而选择和优化合适的ML方法。其他非成像预测因子(例如心电图数据、遗传数据、性别或年龄)通常被集成到ML模型中,通常会提高模型性能。

图2,构建基于图像的机器学习模型的示意图

在本节中,我们将首先详细地讨论输入和输出变量,然后介绍常用的ML技术及其应用。

2.1数据,输入和输出变量2.1.1心血管成像数据来源稳健的ML模型取决于足够且准确的数据的可用性。因此,数据准备是获得在内部和外部验证中表现良好的重要先决条件。在心脏成像领域,通过各种生物库、生物源和注册中心,有组织的大数据的高质量来源的数据可用性不断增加。可用队列可分为基于人群的队列和临床队列。英国生物银行(UKBiobank)等人群队列跟踪普通人群中具有代表性的个体样本的健康状况,因此对风险分层特别有用。相比之下,临床队列,如Barts生物源或欧洲心血管磁共振(EuroCMR)注册中心,由患者的临床成像组成,因此更适合构建诊断工具。这些数据集是开发和验证ML诊断模型的宝贵资源(其他心脏成像数据集示例见表1)。表1,可供选择的心脏成像数据集2.1.2输入变量在建立基于图像诊断评估的ML模型之前,有必要适当地定义成像输入。成像输入可以是原始成像数据(即,像素强度)、常规心脏指数(和其他转换的定量图像参数)或从图像中提取的影像组学特征。有关输入变量的更多信息,请参见图3和图4。图3,文献综述中的输入变量类型分布。如饼图所示,传统指数是训练ML模型的主要特征,其次是影像组学和深度学习技术。图4,基于图像诊断的ML算法的常见输入和输出变量摘要。不同的心脏成像输入特征,如原始数据、从ROI或影像组学中提取的常规指数(最后两个病例需要描绘心脏解剖结构)和期望输出。这两种结构形成了ML心脏成像应用的最基本要求,即数据。2.1.2.1常规成像指标常规成像指标包括常规临床图像分析中常用的测量值,如舒张末期/收缩末期的心室容积和心室射血分数。这些临床指标的估计需要事先绘制相关心腔的心内膜和心外膜边界轮廓。深度学习方法已被用于开发自动/半自动轮廓工具,以实现更高效和可重复的心腔分割。由于手动划定这些边界非常繁琐且容易出错,因此开发了许多自动或半自动工具(现有工具示例见表2)。注意,最近发表了许多基于深度学习(DL)的方法,用于精确、稳健地分割心脏边界,并取得了令人满意的结果。表2,心脏结构和功能分析软件的选择。接下来列出最近的一些研究,以说明如何使用传统的成像指数作为ML诊断模型的输入。在Khened等人中,建立了一个人工神经网络(ANN)来自动诊断几种心脏疾病,如:肥厚型心肌病(HCM)、心肌梗死(MI)和异常RV(ARV),使用LV和RV射血分数、右心室(RV)和左心室(LV)容积、收缩期和舒张末期、心肌质量以及患者的身高和体重作为输入。在Chen等人中,作者综合了临床数据中的32个变量,包括射血分数、血压、性别、年龄以及其他常规风险因素,以诊断扩张型心肌病(DCM)。Juarez-Orozco等人将静息和应激时的射血分数与一组临床参数相结合,使用最大似然法预测缺血和不良心血管事件。关于运动、应变和单强度分析,Mantilla等人提取了全局时空图像特征,基于支持向量机(SVM)分类器评估左室壁运动。SPECT灌注研究中的成对单一强度和方差区域差异模拟了Bagher-Ebadian等人中定性比较应激和静息图像的临床过程。在Moreno等人(9)和Zheng等人(10)中,收缩力差异和多尺度室壁运动评估是通过表观血流进行的,其中每个特征都描述了心脏ROI上给定位置的定向速度。

2.1.2.2影像组学特征

影像组学分析是将数字图像转换为可获取数据的过程。通过应用各种统计和数学过程对数据进行分析,可以量化图像的各种形状和纹理特征,称为影像组学特征(表3)。影像组学分析量化了比视觉上更先进、更复杂的心腔特征。与临床成像指标类似,影像组学要求在提取特征之前勾画心脏结构。

表3,影像组学特征概述影像组学于年引入,很长一段时间以来,它主要用于肿瘤学。最近,许多研究表明,影像组学与ML相结合有望用于CVD的图像辅助诊断。例如,Cetin等人证明,一个ML模型中集成的大约10个影像组学特征足以区分几种主要CVD。最近,哈佛大学(HarvardUniversity)的研究人员Neisius等人建立了一个ML模型,该模型具有6个通过T1-mapping计算得出的影像组学特征区分高血压性心脏病(HHD)和肥厚性心肌病(HCM)。2.1.2.3原始图像特征整个原始图像也可以用作ML模型的输入,无需对手工输入的图像特征进行任何预处理或计算。大约10%的已发布研究依赖于这种类型的建模。在这种情况下,预测心脏诊断的最佳特征由基于训练样本的ML技术自动学习,而不是人工智能专家家的先验定义。为了便于说明,值得一提的是Betancur等人的工作,这是一个端到端的DL模型,在不提前从成像数据中对输入冠状动脉区域进行任何假设细分的情况下,估计每支血管的CAD(冠状动脉疾病)概率。Wolterink等人(17)建立了一个冠状动脉钙化(CAC)检测器,也基于原始CT图像上训练的深度学习模型。Lu等人(18)证明了直接从原始回波图像构建的类似DL模型,用于识别扩张型心肌病病例。Kusunose等人(19)也根据原始回波图像建立了一个DL模型,用于自动检测局部室壁运动异常。

2.1.3输出

ML算法可以使用有监督或无监督学习方法开发。监督学习需要准确标注训练样本。在最简单的形式中,输出是一个二进制变量,患病个体的值为1,对照健康个体的值为0。为了获得稳健的ML模型,建议使用平衡的训练样本,包括相似数量的健康和疾病受试者。请注意,如果要在ML模型中包含多个疾病或疾病阶段,二元分类可以很容易地扩展到多类情况。因此,有监督的学习算法将输入变量与标记的输出联系起来。无监督学习是在不定义输出的情况下对算法进行训练。通过这种技术,ML算法通过识别数据中的固有模式对样本进行分组。一般来说,监督学习优于无监督学习,因此在已知基本事实的情况下,监督学习是首选方法。然而,无监督学习对于发现新的疾病亚型和患者分层(例如高血压性心脏病或CAD的不同表型组)具有独特的价值。

2.2机器学习方法

ML指的是使用计算机算法,该算法能够从示例数据中学习执行给定任务,而无需明确编程的指令。人工智能领域使用先进的统计技术从训练数据中学习预测或判别模式,以便对新数据进行最准确的预测。我们将介绍心脏成像和诊断领域最常用的ML技术,并讨论其优缺点(更多信息见表4和图5)。每种方法的诊断应用列表将作为示例提供。

图5,机器学习方法分布

表4,机器学习方法概述

2.2.1logistic回归与二元分类器相比,逻辑回归(LR)模型用于基于连续输入变量估计给定输出的概率。最终的概率加起来是一,所以我们可以将所有可能的结果和每个结果的概率进行分层。该模型的一个特点是,输入值的微小变化可能会对最终概率预测产生不成比例的影响,如图6A所示。此外,输入向量维度(预测变量的数量)必须保持较低,因为这可能会导致复杂的模型训练过程,并可能导致模型过度拟合,从而导致模型的通用性较差。因此,在处理大量输入变量时,采用了诸如主成分分析(PCA)或线性判别分析(LDA)等降维算法,将预测值的数量减少到信息量最大的数量。当不同的数据源必须集成到一个二进制分类任务中并且需要低复杂度时,LR是一个有价值的模型。在文献中,有几个研究将LRs应用,例如:Zheng等人(10)利用从MRI中提取的形状特征,应用LR模型,根据心脏病理对患者进行分类。因此,他们得到了一个简单且易于解释的模型,每个分类器只有三个输入特征。在另一个例子中,Arsanjani等人(20)使用了一种结合LR改进的分类器,使用SPECT图像诊断梗阻性CAD(冠状动脉疾病)。最后,Bae?ler等人(21)也应用LR模型诊断急性或慢性心力衰竭,如心肌炎。

2.2.2支持向量机

支持向量机(SVM)是有监督的ML模型,通过该模型可以确定将数据分为两类或更多类的最佳线性或非线性边界,如图6B所示。在应用支持向量机之前,应选择用于分离数据的函数,即所谓的核函数。最常用的是线性核或高斯核。SVM模型的剩余参数是通过训练一组模型并保持模型的设置,以最小的误差经验选择的。由于该模型对非判别维数不敏感,因此可以对输入变量进行降维,以简化训练并获得与线性回归更好的泛化。支持向量机的一个主要缺点是,当处理大量数据时,需要占用大量的内存。支持向量机是识别输入数据中非线性和稀疏性的良好选择:可以使用不同的核来拟合不同的分布。在本文介绍的所有最大似然方法中,支持向量机是最常用的方法之一,一些研究发现该模型可以获得最佳性能。例如,Conforti和Guido(22)给出了不同核函数(多项式、高斯函数和拉普拉斯函数)、原始个特征和经过特征选择的25个特征构建的SVM模型的比较,作为心肌梗死早期诊断的输入。类似地,Arsanjani等人(23)和Ciecholewski(24)发现,通过使用从SPECT图像中提取的数据,支持向量机模型优于之前用于CAD识别任务的算法。在第一个例子中,使用二次多项式作为核函数,而在第二个例子中,高斯函数表现出更好的性能。如Berikol等人(25)所示,当使用组织学、ECG和回声定性特征预测名患者的急性冠状动脉综合征时,SVM也是最佳模型。最后一个例子是,Borkar和Annadate(26)使用影像组学特征和使用高斯核函数的支持向量机,在区分DCM(扩张型心肌病)和房间隔缺损(ASD)患者方面获得了非常好的准确性。2.2.3决策树这种方法包括在训练集的不同随机样本上训练的决策树(DTs)的组合,如图6C所示。每个DT都是基于输入特征值的,这些特征值经过优化,可以准确地对训练集的所有元素进行分类。DTs是非线性模型,往往具有高方差。如果决策树模型分支增长得很深,它可能会发现训练数据集中的不规则性,因此可能会遇到过度拟合的问题。在随机森林中,通过对训练数据集的不同样本进行训练,可以解决这个问题。通过这种方式,随着使用的DT数量的增加,方差减小,从而降低了泛化误差,并成为一种强大的技术。通过选择所有预测的模式(针对分类问题)或平均值(针对回归问题)来获得最终预测。这些模型必须选择两个参数:DTs的数量和每个DT的深度级别(即决策的数量)。然而,我们必须记住,虽然随着DT深度的增加,训练数据集上的判别能力会增加,但这通常是以失去泛化能力为代价的。选择RFs是为了将问题转换为一组以DTs表示的分级判别。然而,RFs对噪音的抵抗力不是很强。在文献中,RF或DT被频繁使用,并在一些作品中被选为性能最佳的模型。Moreno等人(9)使用心脏MRI中的光流特征,基于二元分类任务中的SVM和RF模型以个不同心脏病理(如HF或HCM)作为输入特征进行了比较,后者在大多数情况下获得了最佳性能。在这种情况下,RF模型中的每个DT都有两个深度级别,用于临床实践中的快速预测。在另一个例子中,Wong等人(27)通过区域强度分析和运动建模,RF在梗死检测方面优于SVM。作为最后一个例子,Bae?ler等人(28)也使用RF在HCM和正常患者分类的T1加权心脏MRI纹理分析中找到了最具辨别力的特征。2.2.4聚类聚类分析根据从输入变量(图像参数和\或临床信息)中提取的定量数据给出的参数空间中的相似性或接近性,以数据点的形式将受试者分组,如图6D所示。这项技术对于患者分层非常有用,因为根据现有的图像分析技术,具有明显相似病理学的患者可能属于之前未被识别的亚组,这可能有助于了解疾病病理生理学,并有助于更有效的靶向治疗。在分类任务中,一种非常常见的有监督聚类策略是k-最近邻(kNN)聚类,其中k是查找子组时要查看的相邻特征的数量。在这种情况下,周围被诊断的受试者将决定新患者的结局。大多数关于聚类的文献都使用kNN。其他研究报告使用不同的聚类分析对心脏表型进行分类和/或发现。例如,Bruse等人(31)使用分层聚类技术,通过使用心脏MRI的形状特征,将60名患者分为三组,一组为健康组,两组为先天性心脏病组。Wojnarski等人(32)也使用了采用聚类分析技术,利用CT数据对二叶主动脉瓣患者进行分组,以发现三种表型,随后应用RF(随机森林),利用超声和临床数据确定这些表型的生物标志物差异。2.2.5人工神经网络人工神经网络受生物神经网络的结构和相互作用的影响。这些模型通过不同层中的内部节点以分层方式传播输入数据。每个输入行都有相应的权重,必须在训练过程中进行估计和迭代调整。ANN进行调整,直到确定给出最佳模型性能的权重(图6E)。在每个节点中应用一个非线性函数来计算连接的权重,以获得其净输入函数。权重优化使模型对复杂的边界分离类具有很强的适应性,因为此类模型中涉及的特征具有高度非线性组合。此外,ANN中各层之间的连接可用于根据应用设计不同的网络。需要注意的是,缺乏确定每层中的层或节点数量的基础理论,这取决于每个问题和训练数据的数量,以及模型和训练样本的参数/权重数量之间的巨大差异,这些模型适应训练集的趋势。当有大量数据可用时,人工神经网络是最佳选择。在文献中,这些技术被频繁应用。例如,Tsai等人(33)利用从超声中提取的特征,使用人工神经网络检测HCM(肥厚型心肌病)和DCM(扩张型心肌病)患者。最近,Nakajima等人(34,35)的两项研究利用同一SPECT数据集和例病例,使用人工神经网络,使用从压力和休息图像中提取的特征,以较高的精度评估CAD(冠状动脉疾病)。

图6,机器学习方法汇总。

(A)逻辑回归用于模拟二元结果的概率。在图中,Y轴代表概率,而X轴是连续输入变量。请注意,X的微小变化会产生最终概率Y的较大变化,主要是在图的中心部分,模型的不确定性较大。该模型可以推广到多类问题。

(B)支持向量机模型能够使用核技巧将非线性边界转换为线性边界。在训练过程中,类与最终选定边界之间的距离最大化。

(C)随机森林是一种结合决策树的技术,用于减少最终预测中的不确定性。它基于递归二进制分割策略,上层节点是最有区别的节点,后续分支应用于相关性较低的变量。

(D)聚类是一种能够沿着数据找到子组(聚类)的技术。有不同的聚类技术,一些需要预先的聚类数(kMeans),一些可以与输出信息(kNN)一起使用,另一些完全无监督(meanShift)。

(E)人工神经网络能够通过传播结构化数据(绿色节点输入变量),例如影像组学,通过隐藏层(蓝色节点)获得输出(橙色节点),从而模拟输入变量和结果之间的复杂非线性关系。

(F)卷积神经网络是深度学习应用的支柱。它们由多个隐藏层分隔的输入层和输出层组成。它们分层传播成像信息和提取数据驱动特征的能力意味着自动检测中间层内的相关心脏成像生物标志物。

2.2.6卷积神经网络CNN是ANN的扩展,其中给定层中节点的值通过称为卷积的操作受到前一层中节点的影响。这些模型是专门为图像处理设计的,其中节点(像素)的空间信息对于最终预测至关重要。和ANN具有相同的优点和缺点。如今,这些模型非常流行的主要区别在于,图像是作为输入提供的,没有任何特征提取。如图6F所示,这些模型能够为最终预测提取自己有意义的特征。用于将图像压缩到低维表示空间的其他模型,例如可变自动编码器(VAE)和生成性对抗网络(GANs),在这些模型中,可以更容易地进行其他分析(例如,使用SVM模型进行聚类或分类)。应该采取平衡的方法来定义CNN的层次;虽然更深层次的网络会随着每一层的增加而从原始图像中丢失信息,但只有几层的网络可能会在为最终预测提取有意义的特征时遇到问题。CNN被广泛用于图像分析,其在心脏成像中的应用在许多研究中均有报道。Wolterink等人(17)提出了一个框架,其中两个级联CNN能够使用心脏CT血管造影(CTA)图像检测CAC。他们的模型有8-13个卷积层,将×个特征(像素强度)减少到只有32个。Zhang等人(36)使用13层CNN从x大小的超声图像中诊断HCM、心脏淀粉样变性和肺动脉高压,这些图像缩小到个特征。Madani等人(37)使用CNN模型从大小为×的回声图像预测左心室肥厚。2.2.7附加步骤2.2.7.1标准化由于心脏医学中不同信息源的多样性,在制作模型之前通常需要一个标准化步骤。一般来说,算法受益于数据集的标准化,例如,如果所有数值特征都以零为中心,并且具有相同数量级的方差,那么SVM等一些算法将改善心血管预测。此外,一些非线性变换可以准备选定的特征,以创建对异常值更鲁棒的模型。表5中提到了一些最常见的技术。表5,常规的规范化技术

.为了便于说明,Wong等人表明,特征规范化对ML模型的性能有积极影响。此外,分类变量应该使用整数编码,即使用整数引用每个可能的分类值,或者使用独热编码(One-Hotencoding,),将每个可能的分类值视为一个新的二进制变量。

2.2.7.2特征选择和降维

通常,从不同来源(如人口统计学和临床数据、常规指数和成像参数)提取特征后,最终会得到定义单个患者的数千个值。这些信息后来会在ML模型的训练过程中得到应用,但大量输入参数与有限样本数的组合(在医学领域通常会发生这种情况)会使优化问题变得复杂,并可能限制我们模型的泛化能力。因此,通常对输入数据应用降维算法,例如主成分分析(PCA)或线性判别分析(LDA)。还有将为正在训练的特定模型实例依次添加最具识别性的特征,并消除冗余和非信息性的特征。例如,Tabassian等人(29)旨在分析名患者超声心动图记录中的左室变形曲线。通过主成分分析对得到的应变曲线进行了简化,并将结果用于训练应变kNN模型。结果准确率为0.87,显著高于临床医生的结果0.7。与常规指标(AUC=0.62)相比,所选影像组学(AUC=0.76)的预测能力显著提高。

2.2.8验证

为了证明ML应用于心脏成像的有效性,必须从两个角度分析结果:统计有效性,考虑不同队列的再现性和获得的统计值的正确性(即指标),以及内部有效性,考虑算法的临床和实际影响(即临床有效性)。这是一种成对共存;如果双方没有达成一致意见,任何ML心脏成像算法都不会应用于临床常规。以下小节将描述如何考虑指标和临床有效性。

为了保证算法的有效性,整个心脏成像数据集应分为3个不同的子组,分别称为:训练集、验证集和测试集。这些群体的选择方式通常是子群体共享人口分布,如年龄或性别。当然,控制对象和病理对象的均衡分布也是必需的。一旦ML模型经过训练和测试,就会获得不同的指标来评估其性能。

准确度衡量算法正确分类输入数据的百分比。如果不存在类别不平衡(即一个类别代表的数量高于其他类别),这是在多个科学情境中使用的一种简单测量方法。使用准确度作为衡量标准的缺点之一是,在测量假阳性和假阴性观察值时,存在偏差。因此,特异性(Sp)和敏感性(Se)被广泛用于衡量算法的性能,这一次考虑到了可能的类不平衡。为了评估算法的性能并了解哪里可能存在未分类问题,使用了一个名为混淆矩阵的表格报告。这种特定的表格布局通常用于描述监督学习模型的性能。矩阵的每一行表示预测类中的实例,而每一列表示实际类中的实例(反之亦然)。从灵敏度、特异性和混淆矩阵中,我们可以提取一个性能图表示,称为受试者工作特征曲线(ROC)曲线。它是通过绘制各种阈值设置下的真阳性率(TP率)和假阳性率(FP率)来创建的。在ML中,真阳性率也称为灵敏度、召回或检测概率。ROC分析与诊断决策的成本效益分析有着直接而自然的联系。ROC曲线下的面积(AUC)是用来衡量算法性能的另一个指标。

值得注意的是,AUC可以从ML模型获得的决策边界中计算,尽管它是用离散输出进行训练的。当一个经过训练的模型被要求做出预测时,可以计算出一个概率,并用于生成ROC分析。

如果您对影像组学,脑影像数据处理感兴趣,可浏览思影科技课程及服务,感谢转发支持(可添加

分享 转发
TOP
发新话题 回复该主题