应用方向:本文将显微高光谱成像技术应用于黑色素瘤与色素痣组织切片的区分与早期诊断。该技术可在显微镜下采集组织切片的高光谱图像,融合空间结构信息与光谱反射特征,在无需额外染色或标记的情况下,有效识别肉眼难以分辨的生化差异,从而克服传统诊断对经验依赖性强、误判风险高等问题。通过构建智能辅助诊断模型,显微高光谱技术实现了对病理切片中良性与恶性组织的自动化分类。研究表明,该技术不仅显著提升了诊断的准确性,还可与深度学习模型高效融合,推动病理诊断从经验主导向数据驱动的智能化转变。因此,显微高光谱成像在数字病理、早期癌症筛查及辅助诊断系统开发等领域展现出广阔的应用前景。
关键词:黑色素瘤、机器学习技术、高光谱医学影像、智能辅助诊断、图像智能分类
背景黑色素瘤是一种极具侵袭性的皮肤癌,其发病率和死亡率在皮肤恶性肿瘤中均居首位。由于早期黑色素瘤与良性色素痣在组织形态上极为相似,传统病理诊断方法常面临判别困难,导致误诊和漏诊风险加大。当前常用的HE染色技术只能提供组织形态信息,尚缺乏对病理切片中细微光谱差异的定量分析手段。而免疫组化等手段尽管可辅助诊断,但其周期长、成本高,不利于快速筛查。因此,亟需一种能够在HE染色基础上提供更多定量、客观信息的技术手段,以辅助医生提高早期诊断的准确性与效率。
高光谱成像(HSI)作为一种非接触、非侵入、无需染料标记的成像技术,可同时获取组织在空间与光谱维度上的信息,已被证实在医学成像中具备巨大潜力。每个像素点包含数十至上百个波段的反射光谱特征,可用于区分不同生理和病理状态下组织的光谱差异,尤其在500–700 nm范围内的差异最为显著。结合深度学习方法(如迁移学习与残差网络)的自动特征提取与分类能力,有望实现对病理切片中黑色素瘤与色素痣的快速、精确、智能辅助诊断,为临床提供全新的病理影像分析工具。
研究内容本研究旨在探索将高光谱成像技术(HSI)与深度学习算法相结合,用于提升黑色素瘤与色素痣之间的早期病理诊断准确性。本研究构建一种高效、非侵入、无染料标记的病理图像智能识别方法,解决传统HE染色切片诊断中“特征相似难区分、主观性强、效率低”等突出问题。为此,作者采集了100例病理样本(包括50例黑色素瘤和50例色素痣),通过显微高光谱成像系统获取400–1000 nm范围内的组织光谱图像,并分别构建一维和二维数据集,提取其光谱与空间特征。在方法上,采用随机森林算法对一维光谱数据进行分类,并进一步构建基于迁移学习的50层深度残差神经网络模型(ResNet-50)以处理包含光谱与空间结构的二维高光谱图像,实现更精确的肿瘤识别与分类。
实验设计实验数据是通过一台江苏双利合谱科技有限公司显微高光谱成像系统(GaiaMicro-G-V10E-AZ4, Dualix Spectral Imaging)采集的。该系统分为两部分,如图1(a)所示:一台推扫式高光谱相机和一套显微镜系统。推扫式高光谱相机将分光元件和面阵相机进行组合。分光元件将光分成多个特定波长的光线,面阵相机则以线推扫的方式旋转采集每一条线像素的波长信息。整个图像的采集过程就是通过旋转扫描逐行获取数据,并将图像拼接成完整的高光谱图像。同时,计算机配备了图像采集软件,这不仅提供了高效的图像采集功能,还提供了良好的用户界面。良好的软硬件条件为微观高光谱荧光数据的采集和分析奠定了坚实的基础。图1展示了良性黑色素瘤和恶性黑色素瘤图像的示例。
研究的大致流程如下:首先,由病理专家对切片样本进行观察与标注;其次,确定激发波长和采集参数后,利用显微高光谱成像系统对样本切片进行扫描成像;第三,将获得的高光谱图像根据模型所需的不同输入结构进行数据转换;第四,将处理后的数据输入深度学习模型中,输出最终的准确率、ROC曲线和混淆矩阵;最后,对一维与二维数据结果进行比较,以确定哪种数据更能有效表征两类组织的状态与特征。
▲图1. (a) 用于获取高光谱图像的设备。(b) 一些黑色素瘤和色素痣样本。(c) 在高光谱相机上的扫描模式。(d) 从黑色素瘤(CMM)患者处获取的不同波长的高光谱图像。(e) 高光谱图像数据立方体。(f) 肿瘤组织样本(CMM)和色素痣样本的组织病理学图像。(g) 病理高光谱图像。
研究方法
本研究所使用的数据来源于山东大学齐鲁医院确诊的50例恶性黑色素瘤患者的常规病理与临床资料,同时选取同期50例色素痣患者作为对照组。共纳入样本100份,所有切片均为组织冷冻病理切片,切片选择与取样过程中所选区域均为随机,以确保模型训练的准确性与泛化能力。为尽可能包含更多的病变信息,每张切片选取4–5个具有代表性的区域进行采集。
在建模过程中,研究分别使用了随机森林算法与残差网络算法。随机森林基于一维光谱数据构建模型,而残差网络则处理二维图像数据。一维数据通过每8个采样点计算平均光谱以降低噪声与冗余;二维数据则选取感兴趣区域的125个像素,重组为二维图像,用于深度神经网络训练。
随机森林属于一种Bagging方法。图2展示了其训练流程。如图所示,对于给定的训练样本集 S,每一轮迭代采用自助采样从 S中随机抽取M个样本,重复进行n轮,从而获得n个彼此独立的训练子集。随后,针对每一个训练子集分别建立一个预测模型,最终得到n个独立的模型。在分类任务中,通过对这n个模型的预测结果进行投票表决,得到最终的分类结果。
▲图2. Bagging 方法的训练过程。
迁移学习(Transfer Learning, TL)是指将已训练好的网络的低层结构和参数迁移到一个新的分类模型中,并通过调整高层模型的参数来完成特定的分类任务。残差网络(ResNet-50)基于深度卷积神经网络框架,引入残差模块以缓解深层网络的梯度消失问题,并通过迁移学习策略提升模型对小样本数据的泛化能力。图3展示了迁移学习的方法。
▲图3. 卷积神经网络(CNN)的迁移学习。
为了全面衡量所提出分类模型的性能,研究采用了准确率、ROC曲线、混淆矩阵来全面衡量所提分类模型的性能。准确率用于反映模型对整体样本的分类正确程度;ROC曲线通过绘制不同阈值下的真阳性率(TPR)与假阳性率(FPR)关系,评估模型的分类能力与鲁棒性;混淆矩阵则具体展示了模型对不同类别(黑色素瘤与色素痣)样本的识别情况,包括真正例、假正例、真负例和假负例的数量,从而进一步分析模型在哪些类别上存在误判或漏判现象。
结果
随机森林模型在黑色素瘤和痣的分类中,训练集的准确率为0.96,测试集的准确率为0.89。图4描绘了随机森林模型的ROC曲线和混淆矩阵结果。随机森林模型的ROC曲线下面积(AUC)为0.89;图4结果表明用于区分良性黑色素瘤和恶性黑色素瘤的随机森林模型虽然能够产生一定的分类效果,但其分类准确率并不理想。根据混淆矩阵,该模型在恶性样本的一维数据分类上存在较高的错误率,整体分类准确率较低,且分类结果的可靠性欠佳。
▲图4. 随机森林分类结果:(a) ROC曲线和AUC曲线;(b) 混淆矩阵。
对比使用了深度残差网络来进行黑色素瘤和色素痣的分类。50层网络的训练集准确率为0.99,测试集准确率为0.98。图5展示了残差模型的ROC曲线、AUC面积以及混淆矩阵。残差网络模型的训练准确率相对较高,在测试集上的分类准确率达到了0.98。图5表明,深度模型的AUC面积大于随机森林模型。50层残差网络模型表现更佳,其AUC值达到了0.98。根据混淆矩阵,残差网络模型在黑色素瘤恶性样本的分类上更为准确。总体而言,两种模型的分类性能均在可接受的误差范围内,而50层残差网络模型的分类结果相对更为可靠。
▲图5. 深度残差网络的分类结果:(a) ROC曲线和AUC曲线;(b) 混淆矩阵。
如图6所示,我们在不同维度的数据上对比了多种模型的表现,结果发现:随机森林模型在一维数据上表现更优。这可能是由于随机森林属于Bagging类型的集成学习方法,通过多棵弱分类树的投票或平均操作,可以获得较高的准确性与较强的泛化能力。而深度神经网络能够从二维数据中提取更丰富的特征,因此其结果优于基于一维数据的模型。在各模型性能对比中,结合迁移学习的残差网络表现最佳。尽管用于二维建模的训练数据量较少,但迁移学习在此过程中发挥了显著作用,有效提升了模型的分类能力。
▲ 图6. 不同模型的比较结果:(a) 一维数据上不同模型结果的比较;(b) 二维数据上不同模型结果的比较。
结论本文旨在探究利用高光谱荧光数据,通过深度学习方法对黑色素瘤和痣进行分类的可能性。研究结果显示,采用迁移学习的50层残差网络的整体性能优于随机森林模型。随机森林和残差网络模型的性能表明,高光谱荧光数据能够更好地展现黑色素瘤与色素痣之间的特征差异,这种差异在一定程度上提高了分类模型的准确率。残差网络模型的分类准确率较为理想,其可靠的分类表现可助力医生的临床诊断。高光谱技术简化了样本处理流程,消除了因医生水平差异导致的诊断错误,提升了诊断的及时性与普及度,并为其他皮肤色素性疾病诊断与鉴别诊断提供了良好的思路。
作者简介:
李玮,山东大学控制科学与工程学院。
期刊来源:
Photodiagnosis and Photodynamic Therapy