基于机器学习的前列腺癌内脏转移预测模型的建立及验证 张泽郡
基于机器学习的前列腺癌内脏转移预测模型的建立及验证 张泽郡
基于机器学习的前列腺癌内脏转移预测模型的建立及验证 张泽郡
25 单位代码:10183
研究生学号:2021734327 密 级:公开
吉 林 大 学
硕士学位论文
(专业学位)
基于机器学习的前列腺癌内脏转移
预测模型的建立及验证
Development and validation of machine learning-based
prediction model for prostate cancer visceral metastasis
作 者 姓 名:张泽郡
类 别:临床医学硕士
领 域(方向):外科学
指 导 教 师:王春喜 教授
培 养 单 位:白求恩第一医院
2024 年 5 月
基于机器学习的前列腺癌内脏转移预测模型的建立及验证
作 者 姓 名:张泽郡
领 域(方向):外科学
指 导 教 师:王春喜 教授
类 别:临床医学硕士
答 辩 日 期:2024 年 5 月 27 日
摘 要
基于机器学习的前列腺癌内脏转移预测模型的建立及验证
目的:
通过监测、流行病学和最终结果数据库获取前列腺癌内脏转移患者的数据,
分析前列腺癌发生内脏转移的相关因素并通过多种机器学习算法分别建模和验
证。获得最佳预测模型,并建立列线图模型以评估前列腺癌内脏转移风险。
方法:
收集监测、流行病学和最终结果数据库中 2018~2020 年的前列腺癌病例, 纳
入患者的一般资料:年龄、种族、婚姻,肿瘤资料:T 分期、N 分期、M 分期、
临床分级、Gleason 评分、前列腺特异性抗原、骨转移、远处淋巴结转移及内脏
转移等。根据内脏转移情况将患者分为两组,采用 Fisher 精确性检验对分类变量
进行组间比较;采用 t 检验或 Wilcoxon 秩和检验对连续性变量进行组间比较。
接着,将患者按照 7:3 的比例随机分为训练集和验证集,验证基线资料无统计
学差异后分别采用两种策略进行建模和评价。第一种是采用 logistic 回归对训练
集数据首先进行单因素多因素分析筛选出有意义的变量,然后使用逐步回归得到
预测前列腺癌内脏转移的独立影响因素,并以列线图进行展示。分别通过区分度、
校准度、临床实用性 3 个方面来评价训练集和验证集。第二种是采用随机森林模
型、极端梯度提升学习模型和支持向量机模型分别进行建模和验证,使用网格搜
索进行超参数寻优,并使用 10 折交叉验证来验证建模的稳定性,得到 3 种机器
学习模型的最佳超参数,并通过区分度、校准度、临床实用性 3 个方面来评价并
选择最佳预测模型。
结果:
本研究收录 95137 例前列腺癌患者,其中内脏转移患者 681 例,多因素 logistic
回归发现与内脏转移相关的影响因素有年龄(P<0.001)、婚姻(P<0.001)、
临床分级(P<0.001)、病理类型(P<0.001)、前列腺特异性抗原(P<0.001)、
N 分期(P<0.001)、骨转移(P<0.001)、远处淋巴结转移(P<0.001),穿
刺标本 Gleason 评分(P<0.001),手术标本 Gleason 评分(P<0.001)。经过
逐步回归校正后发现年龄、婚姻不再是独立影响因素。构建列线图,得到训练集
I
的曲线下面积值为 0.966,说明模型具有较好的区分度,使用校准图及决策曲线
分析评价模型发现其临床适用性可能有限。综合 3 种机器学习模型在训练集和验
证集上的 11 个评价指标的结果,随机森林模型是最优模型。受试者工作特征曲
线结果显示,随机森林模型在训练集和验证集中的曲线下面积值均为最高。校准
曲线显示随机森林模型的预测值与真实值的一致性最高,优于其余 2 个模型。决
策曲线分析显示 3 种模型都实现了相对于全部干预或无干预计划的净临床获益。
结论:
1.通过监测、流行病学和最终结果数据库多中心、大样本量的数据构建了前
列腺癌内脏转移的列线图模型,该模型具有一定的临床应用价值。
2.病理类型、临床分级、N 分期、前列腺特异性抗原、Gleason 评分、合并
骨、远处淋巴结转移是前列腺癌患者发生内脏转移的独立影响因素。
3.随机森林模型是基于机器学习的最优模型,三种模型对前列腺癌内脏转移
风险预测都可以实现临床获益。
关键词:
前列腺癌,内脏转移,SEER 数据库,列线图,机器学习
II
Abstract
Development and validation of machine learning-based
prediction model for prostate cancer visceral metastasis
Objective :
To obtain the data of patients with visceral metastasis of prostate cancer through
the SEER database, analyze the related factors of visceral metastasis of prostate
cancer and model and verify them through a variety of machine learning algorithms.
The best prediction model was obtained, and a nomogram model was established to
evaluate the risk of visceral metastasis of prostate cancer.
Methods :
Prostate cancer cases from 2018 to 2020 in Surveillance Epidemiology and End
Results(SEER) database were collected. The general data of patients were included:
age, race, marriage, tumor data: T stage, N stage, M stage, clinical grade, Gleason
score, PSA, bone metastasis, distant lymph node metastasis and visceral metastasis.
According to the visceral metastasis, the patients were divided into two groups.
Fisher's exact test was used to compare the categorical variables between groups.
Continuous variables were compared between groups using t-test or Wilcoxon rank
sum test. Then, the patients were randomly divided into training set and validation set
according to the ratio of 7:3, after verifying that there was no statistical difference in
baseline data, two strategies were used for modeling and evaluation. The first is to use
logistic regression to perform single-factor multi-factor analysis on the training set
data to screen out meaningful variables, and then use stepwise regression to obtain
independent influencing factors for predicting visceral metastasis of prostate cancer,
and display them in a nomogram. The training set and validation set were evaluated
by three aspects: discrimination, calibration and clinical practicability. The second is
to use the random forest model, the extreme gradient boosting learning model and the
support vector machine model to model and verify respectively. The grid search is
used to optimize the hyperparameters, and the 10-fold cross-validation is used to
III
verify the stability of the modeling. The optimal hyperparameters of the three
machine learning models are obtained, and the best prediction model is evaluated and
selected through three aspects: discrimination, calibration and clinical practicability.
Results :
This study included 95137 patients with prostate cancer, including 681 patients
with visceral metastasis. Multivariate logistic regression found that the influencing
factors related to visceral metastasis were age (P<0.001), marriage (P<0.001), clinical
grade (P<0.001), pathological type (P<0.001), PSA (P<0.001), N stage (P<0.001),
bone metastasis (P< 0.001), distant lymph node metastasis (P<0.001), Gleason score
of puncture specimens (P < 0.001). Gleason score of surgical specimens (P<0.001).
After stepwise regression correction, it was found that age and marriage were no
longer independent influencing factors. The nomogram was constructed, and the area
under the curve of the training set was 0.966, indicating that the model had good
discrimination. The clinical applicability of the model may be limited by using the
calibration map and decision curve analysis and evaluation model. Combining the
results of 11 evaluation indexes of the three machine learning models on the training
set and the verification set, the random forest model is the optimal model. The results
of the receiver operating characteristic curve showed that the random forest model
had the highest area under the curve in the training set and the validation set. The
calibration curve shows that the predicted value of the random forest model has the
highest consistency with the real value, which is better than the other two models.
Decision curve analysis showed that all three models achieved net clinical benefits
relative to all or no intervention plans.
Conclusion :
1. The nomogram model of visceral metastasis of prostate cancer was
constructed by multi-center and large sample data of SEER database, which has
certain clinical application value.
2. Pathological type, clinical grade, N stage, PSA, Gleason score, combined bone
and distant lymph node metastasis are independent influencing factors of visceral
IV
metastasis in patients with prostate cancer.
3. The random forest model is the optimal model based on machine learning. All
three models can achieve clinical benefits in predicting the risk of visceral metastasis
of prostate cancer.
Keywords :
prostate cancer, visceral metastasis, SEER database, nomogram, machine
learning
V
目 录
第 1 章 绪论............................................................................................... 1
第 2 章 材料与方法 .................................................................................. 3
2.1 研究对象与纳入排除标准 .............................................................. 3
2.2 研究变量 ........................................................................................... 3
2.3 研究方法 ........................................................................................... 4
2.3.1 统计学方法 ................................................................................. 4
2.3.2 统计软件 ..................................................................................... 6
第 3 章 结果............................................................................................... 7
3.1 患者一般资料及临床病理学特征 .................................................. 7
3.2 前列腺癌内脏转移单因素及多因素分析 .................................... 10
3.3 列线图的构建与评价..................................................................... 13
3.4 基于机器学习的模型建立与评价 ................................................ 15
第 4 章 讨论............................................................................................. 21
4.1 相关变量与内脏转移的关系 ........................................................ 22
4.2 SEER 数据库与机器学习算法 ....................................................... 24
第 5 章 结论............................................................................................. 25
5.1 主要结论 ......................................................................................... 25
5.2 不足与展望 ..................................................................................... 25
综述 前列腺癌的分子影像技术现状 .................................................... 26
参考文献................................................................................................... 33
中英文缩略词表
英文缩写 英文名称 中文名称
PC Prostate Cancer 前列腺癌
USPSTF US Preventive Services Task Force 美国预防服务工作组
VII
第 1 章 绪论
第 1 章 绪论
前列腺癌(Prostate Cancer,PC)是男性泌尿生殖系统最常见的恶性肿瘤之
一,其发病率和死亡率分别位列全球男性恶性肿瘤的第 2 位和第 5 位,在中国分
别居第 6 位和第 7 位[1],2020 年全球估计有 140 万新病例和 37.5 万例死亡病例[2,3]。
自 2012 年美国预防服务工作组(US Preventive Services Task Force, USPSTF)建
议对所有男性进行前列腺特异性抗原(Prostate Specific Antigen,PSA)的筛查以来,
前列腺癌的发病率持续上升,其中大约一半的新增病例为晚期,包括局限性 PC
和转移性 PC[4]。前列腺癌目前没有明确病因,公认的危险因素仅包括年龄、种
族及家族史[5],其中一级亲属患前列腺癌的风险大约是普通人群的两倍,而在 60
岁以下前列腺癌患者的一级亲属中,这种家族性风险比一般人群高出 4 倍以上[6]。
转 移 性 前 列 腺 癌 , 特 别 是 转 移 性 去 势 抵 抗 性 前 列 腺 癌 ( metastatic
Castration-Resistant Prostate Cancer,mCRPC)是一种致死性癌症。据统计[7],2020
年全球超过 37.5 万患者死于 mCRPC。前列腺癌的第一个转移部位往往是原发肿
瘤附近的淋巴结(区域淋巴结),其次是骨和远端淋巴结,随后转移到肝、肺、
脑等内脏器官[8]。因此,现有文献大多集中于骨和淋巴结转移,而对前列腺癌内
脏转移(Visceral Metastases,VM)的研究有限[9]。既往的研究认为内脏转移在晚期
前列腺癌患者中不常见,其临床特征尚不明确,并且与神经内分泌表型和不良预
后 相 关 [10] 。 Kadeerhan 等 [7] 使 用 监 测 、 流 行 病 学 和 最 终 结 果 (Surveillance
Epidemiology and End Results,SEER)数据库发现,从 2010 年到 2019 年,前列
腺癌内脏转移的年发病率增加了 12.3%;肝脏是前列腺癌最致命的转移器官,肝
转移患者的中位总生存期仅为 10-14 个月[11,12]。前列腺癌患者不常规筛查内脏转
移情况,并且内脏转移对常规疗法(如内分泌治疗或化疗)的疗效不佳[13]。因此,
依据大量患者的临床数据,使用统计学方法构建前列腺癌内脏转移的预测模型具
有临床意义。
临床预测模型(Clinical Prediction Model,CPM)是利用多因素模型估算患
有某病的概率或将来发生某结局的概率,可分为诊断模型(Diagnostic Model,
DM)与预后模型(Prognostic Model,PM)[14,15]。随着统计学的发展,临床预测
模型已从简单的线性回归发展到复杂的机器学习模型[16]。机器学习是一种依据人
1
第 1 章 绪论
工智能学习,通过开发最能代表一组数据的算法,来指导计算机从数据中学习,
然后根据数据分析结果做出最佳决策并预测这些模型[17],它能够处理更为复杂的
数据结构,包括非线性关系、高维数据以及缺失数据等[18]。机器学习主要分为有
监督学习、无监督学习、半监督学习和强化学习[19],它们分别适用于对应的任务。
其中,有监督学习是最常见的机器学习形式,多见于建立预测模型。它是通过输
入数据集(训练集)建立模型,计算目的函数,最终输出目的结果的机器学习任
务,它可以大致分为分类和回归两个方向,算法包括 logistic 回归、线性回归、
随机森林(Random Forest,RF)、支持向量机(Support Vector Machines,SVM)、
极端梯度提升学习(Extreme Gradient boosting,XGboost)等。目前,随着医疗
数据的信息化与复杂化,其规模也在不断变大,机器学习已经广泛应用于医学研
究,尤其是肿瘤相关方向,如基因组学、转录组学、影像组学等。
监测、流行病学和最终结果数据库是由美国国家癌症研究所(National Cancer
Institute,NCI)资助,目的是向公众提供癌症数据用于临床研究,以降低美国的
癌症负担。SEER 数据库收集美国代表性地理区域和亚人群中所有恶性肿瘤患者
的人口学、临床和生存数据。作为使用最广泛的开放获取数据库之一,SEER 数
据库促进了精准医学和个性化治疗的发展,提高了医疗质量,减少了不必要的成
本,改进了预防策略,并在人群层面鼓励了健康的生活方式[20,21],例如,Schafer
等[22]使用 SEER 数据库和美国癌症统计数据库,研究了美国四种主要泌尿生殖系
统癌症(膀胱癌、肾癌、前列腺癌和睾丸癌)发病率和死亡率的差异及趋势。
基于上述信息,本研究选用 SEER 数据库作为数据来源,筛选与前列腺癌内
脏转移相关因素并绘制列线图、建立并评价模型对内脏转移的风险预测。同时通
过机器学习方法建立并评价其他模型并进行比较研究,从中得出最优模型。
2
第 2 章 材料与方法
第 2 章 材料与方法
2.1 研究对象与纳入排除标准
2.2 研究变量
本研究的研究变量设定基于患者的基本情况及临床病理指标,包括年龄、种
族、病理类型、PSA、Gleason 评分、T 分期、N 分期、M 分期及临床分级和病
理分级等。在原始数据中年龄的范围为 0~90+岁,设为连续变量,最大值为 90;
种族包括白人、黑人、美洲印第安人/阿拉斯加原住民、亚洲或太平洋岛民四类,
设为分类变量;PSA 的范围为 0.1~98ng/mL、≤0.1ng/mL 和≥98ng/mL,因此按照
2022 年中国临床肿瘤学会 (Chinese Society of Clinical Oncology,CSCO)前列
腺癌诊疗指南[25]中前列腺癌的风险分层,将 PSA 划分为 0~4ng/mL、4~10ng/mL,
10~20ng/mL,20~40ng/mL,≥40ng/mL 五组。前列腺癌 TNM 分期根据第八版美
国癌症联合委员会(American Joint Committee on Cancer,AJCC,2018)分期确
定[26],其中原发肿瘤状态分为原发肿瘤不能评价(Tx)、无原发肿瘤证据(T0)、
不可扪及和影像学难以发现的临床隐匿肿瘤(T1)、肿瘤可触及,仅局限于前
列腺内(T2)、肿瘤突破前列腺包膜(T3),T3 又细分为肿瘤侵犯包膜外(T3a)
和肿瘤侵犯精囊(T3b)、肿瘤固定或侵犯除精囊外的其他邻近组织结构(T4);
区域淋巴结情况分为区域淋巴结不能评价(Nx)、无区域淋巴结转移(N0)、
3
第 2 章 材料与方法
区域淋巴结转移(N1);转移状态分为无远处转移(M0)、远处转移(M1),
其中包括有区域淋巴结以外的淋巴结转移(M1a)、骨转移(M1b)、其他脏器
转移,伴或不伴骨转移(M1c)(数据库中分为肺转移、肝转移、脑转移及其他
转移)。前列腺癌的临床分级和病理分级是依据北美中央癌症登记中心协会
(North American Association of Central Cancer Registries,NAACCR)对前列腺
癌的综合评价。临床分级是基于临床检查和诊断的结果,通常在手术前或在没有
进行手术的情况下确定。它反映了医生在手术或进一步治疗之前对肿瘤扩散和侵
袭性的最佳评估。在前列腺癌中,临床等级可能是多种临床诊断结果的综合,如
肿瘤的大小、位置、是否侵犯了周围的组织或器官,以及是否有淋巴结转移等。
病理分级是基于手术后获取的肿瘤组织样本的病理学检查结果,它提供了关于肿
瘤的确切特征、生长方式、分化程度以及与周围组织的关系的详细信息,包括肿
瘤的分化程度(即肿瘤细胞与正常前列腺细胞的相似程度)、是否有血管或神经
侵犯、肿瘤边界是否清晰等。
2.3 研究方法
2.3.1 统计学方法
本研究具体流程如图 1,将患者是否有内脏转移分为两组。两组间进行差异
性比较时,分类变量采用 Fisher 精确性检验;符合正态分布的连续性变量采用 t
检验,不符合正态分布的连续性变量采用 Wilcoxon 秩和检验。检验水准设为
α=0.05。将患者按照 7:3 的比例随机分为训练集和验证集,验证基线资料无统
计学差异后,分别采用两种策略进行模型建立和评价。第一种是采用传统的
logistic 回归进行建模和验证:对训练集数据首先进行单因素多因素分析筛选出
有意义的变量,然后使用逐步回归筛选预测前列腺癌内脏转移的独立影响因素,
并以列线图进行展示。分别通过区分度、校准度、临床实用性 3 个方面来评价训
练集和验证集。第二种是采用 3 种机器学习方法分别进行建模和验证,具体包括
通过区分度、校准度、临床实用性 3 个方面来评价并选择最佳预测模型[27],其中
包括:绘制受试者工作特征(Receiver Operating Characteristic,ROC)曲线,获
取曲线下面积(Area Under the Curve,AUC)值,判定模型的预测效能;绘制校
正曲线,评估模型预测结果与实际结果之间是否具有较好的一致性;通过决策曲
4
第 2 章 材料与方法
排除诊断时间不符、非原发肿瘤、相关数据
缺失或未知患者共 75532 例
内脏转移组 非内脏转移组(n
(n=681) =94456)
逐步回归筛选特征、列线图 最佳预测模型
图 1 研究流程
5
第 2 章 材料与方法
2.3.2 统计软件
6
第 3 章 结果
第3章 结果
3.1 患者一般资料及临床病理学特征
7
第 3 章 结果
8
第 3 章 结果
表 3.1 患者的组间比较
变量 无内脏转移组, N = 94,456 内脏转移组, N = 681 p值
种族 0.148
原住民
临床分级 <0.001
病理类型 <0.001
PSA(ng/mL) <0.001
T 分期 <0.001
T0 3 (0.0%) 0 (0.0%)
9
第 3 章 结果
续表 3.1 患者的组间比较
变量 无内脏转移组, N = 94,456 内脏转移组, N = 681 p值
N 分期 <0.001
M 分期 <0.001
3.2 前列腺癌内脏转移单因素及多因素分析
10
第 3 章 结果
变量 OR(95%CI) P 变量 OR(95%CI) P
婚姻 -
未婚 对照 -
病理类型 病理类型
其他 对照 其他 对照
11
第 3 章 结果
续表 3.2 单因素及多因素分析
单因素分析 多因素分析
变量 OR(95%CI) P 变量 OR(95%CI) P
PSA(ng/mL) PSA(ng/mL)
0-4 对照 0-4 对照
N 分期 N 分期
N0 对照 N0 对照
骨转移 骨转移
否 对照 否 对照
远处淋巴结转移 远处淋巴结转移
否 对照 否 对照
12
第 3 章 结果
3.3 列线图的构建与评价
经逐步回归筛选的变量(临床分级、病理类型、PSA、N 分期、Gleason 评
分、骨转移、远处淋巴结转移转移)纳入 R 软件构建列线图(见图 2),同时使
用一致性指数(C-Index,即 AUC 值,见图 3A、3B)和矫正曲线分别评价模型,
不难看出模型的 AUC 值较高,即模型对前列腺癌内脏转移风险的预测具有较好
的区分度。然而校准图(见图 4A、4B)和 DCA 图(见图 5A、5B)显示:在训
练集及验证集中基于逐步回归模型的预测概率与实际观察值的一致性一般,其临
床收益概率阈值范围较窄,可能导致临床适用性有限。
图 3.2 前列腺癌内脏转移风险列线图预测模型
13
第 3 章 结果
图 4A 训练集的校准图
图 4B 验证集的校准图
注:Apparent 曲线表示预测曲线, Bias-corrected 曲线表示校准曲线, Ideal 曲
线表示理想曲线
14
第 3 章 结果
图 5A 训练集 DCA 图
图 5B 验证集 DCA 图
3.4 基于机器学习的模型建立与评价
本研究分别采用随机森林模型、极端梯度提升学习模型和支持向量机模型对
15
第 3 章 结果
训练集进行建模,使用网格搜索进行超参数寻优,并使用 10 折交叉验证来验证
建模的稳定性,得到的 3 种机器学习模型的最佳超参数分别为:RF 模型:num.trees
为 500,mtry 为 5,min.node.size 为 3,max.depth 为 3;XGBoost 模型:eta 为 0.2,
min_child_weight 为 1,subsample 为 0.7,colsample_bytree 为 0.9,colsample_bylevel
为 0.5,nrounds 为 13;SVM 模型:kernel 为 radial,cost 为 8,gamma 为 3。
3 种模型在训练集上的 11 个评价指标的结果如表 3,综合来看 RF 模型是最
优模型。ROC 曲线结果显示,RF 模型在训练集中的 AUC 值最高(图 6)。校
准曲线显示 RF 模型的预测值与真实值的一致性最高,优于其余 2 个模型(图 7)。
DCA 曲线显示 3 种模型都实现了相对于全部干预或无干预计划的净临床获益
(图
8)。
3 种模型在验证集上的 11 个评价指标的结果如表 4,综合来看 RF 模型仍然
是最优模型。ROC 曲线结果显示,RF 模型在验证集中的 AUC 值最高(图 9)。
校准曲线显示 RF 模型在验证集上的预测值与真实值的一致性最高,优于其余 2
个模型(图 10)。DCA 曲线显示 3 种模型在验证集上都实现了相对于全部干预
或无干预计划的净临床获益(图 11)。
表 3.3 训练集中 3 个模型的评价指标
模型 RF SVM XGBoost
16
第 3 章 结果
图 6 三种模型在训练集上的 ROC 曲线
17
第 3 章 结果
图 7 三种模型在训练集上的校准曲线
图 8 三种模型在训练集上的 DCA 曲线
18
第 3 章 结果
图 9 三种模型在验证集上的 ROC 曲线
图 10 三种模型在验证集上的校准曲线
19
第 3 章 结果
图 11 三种模型在验证集上的 DCA 曲线
20
第 4 章 讨论
第 4 章 讨论
目前,随着人口老龄化、社会生活方式、饮食结构等的改变,以及人民群众
健康意识的提高,我国的癌症谱正在从发展中国家向发达国家转变,前列腺癌已
成为威胁男性健康的主要恶性肿瘤之一[30]。尽管目前中国前列腺癌的发病率较西
方国家而言相对偏低,标化发病率为 17.34/10 万,但一项流行病学调查发现,我
国前列腺癌发病率呈日益增长的趋势,形势不容乐观[31]。同时,我国前列腺癌患
者往往确诊时分期偏晚,预后普遍较差。大多数初诊转移性前列腺癌患者处于激
素敏感阶段,平均持续三年后就会进入 mCRPC 阶段[32]。在激素敏感阶段,治疗
策略常包括手术或药物去势,目的是降低体内睾酮水平,以消除其对癌细胞生长
的刺激作用,从而抑制肿瘤的进展。然而,随着疾病的进展,即使在极低的雄激
素水平下,癌细胞仍会受到血液中最低水平的雄激素(如肾上腺来源)的刺激,
或独立于雄激素的刺激而生长,进入去势抵抗阶段。此阶段发生的第一个迹象常
不是患者出现任何症状,却往往是 PSA 水平的上升,或是影像学检测到的新发
远处转移。因此,提前识别并关注前列腺癌患者内脏转移的高风险因素,对于改
善患者的生存预后具有重要意义。通过早预防、早诊断、早治疗,可以有效控制
疾病的进展,提高患者的生活质量和生存率。目前,关于前列腺癌转移的研究主
要集中于骨转移瘤上,而对内脏转移的研究相对较少,但这部分患者预后通常较
差。因此,深入研究这一领域,对前列腺癌的整体治疗策略至关重要。构建一个
前列腺癌内脏转移风险预测列线图模型,可以帮助医生更准确地评估患者的转移
风险,对于个性化的临床决策具有重要价值。
如今,列线图已成为重要的现代医学决策工具,可以预测疾病发生风险或远
期生存结果[33]。列线图作为一种数字化的图形工具,通过量化各种个体风险因素
对结局事件的影响,能够快速将模型中复杂的数学关系以图形方式展现,从而以
可视化的形式展示每个患者的患病或死亡发生概率[34],基于其可解释性强、构建
相对简单的特点,故而在预测模型中广泛应用。目前已有研究通过构建列线图来
预测前列腺癌患者的骨转移风险。例如,Godtman 等[35]依据瑞典国家前列腺癌数
据库中的病例,开发了一种骨转移风险预测模型。Miyoshi 等[36]利用 463 例前列
腺癌患者的临床病理信息建立了日本前列腺癌骨转移患者总体生存率的预测模
21
第 4 章 讨论
型。然而,目前尚无基于丰富临床数据且预测能力卓越的前列腺癌内脏转移列线
图模型。
在前列腺癌内脏转移的相关临床研究中,目前有报道指出前列腺癌内脏转移
涉及多个临床病理因素,包括 PSA、Gleason 评分、T 分期、N 分期等[37,38],这
与本研究筛选的特征结果大体一致。本研究揭示了前列腺癌患者中多个独立预测
因素,包括病理类型、N 分期、Gleason 评分、PSA、骨转移、远处淋巴结转移
和临床分级。目前,针对筛选出的危险因素建立模型使用最多的方法是基于多因
素回归分析的列线图[39],本研究同样采用了此方法,同时还另外使用 3 种机器学
习算法来训练、验证和测试模型,以此建立更加科学、准确的模型。本研究结果
显示,基于机器学习的模型均有良好的表现,在训练集和验证集的中 RF 模型在
训练集和验证集中 AUC 值最高,结合准确度,精准率,召回率,F1 分数等机器
学习模型的评价指标后,RF 模型的综合表现最好。
4.1 相关变量与内脏转移的关系
年龄与肿瘤的发生和预后紧密相关,恶性肿瘤的发病率随年龄增长而升高。
在一项对于福建省恶性肿瘤的发病年龄调查中显示[40]:男性前列腺癌发病主要集
中在≥65 岁年龄段。在肿瘤防控策略中,应依据不同癌症类型的高发年龄进行针
对性筛查。对于老年男性,建议进行前列腺癌的常规筛查。本研究发现,初诊时
伴有内脏转移的前列腺癌患者平均年龄较无内脏转移患者更高。因此,对于老年
患者,应实施更严密的监测和随访。随着患者年龄的增加,对其内脏进行影像学
检查的重要性也应相应提高。
前列腺癌的发病率、死亡率在不同种族中有着较显著的差异,有研究发现前
列腺癌患者死亡率中黑人占比最高为 43/10 万,白人为 19.8/10 万,而亚洲或太
平洋岛民仅为 9.4/10 万[41]。本研究发现种族不是前列腺癌内脏转移的独立影响因
素(P>0.05),这可能与黑种人的部分基因的差异性表达、生活习惯和其本身
对于医疗相对不信任有关[42]。由于本研究基于美国人群,对我国人群并不适用,
因此专门针对我国人群开展前列腺癌内脏转移相关研究具有较大临床意义。
PSA 是一种由前列腺上皮细胞和尿道周围组织分泌的蛋白酶,由 237 个氨基
酸组成,主要存在于精液中,少量存在于血液中。作为前列腺癌诊断和预后评估
22
第 4 章 讨论
23
第 4 章 讨论
作为最广泛使用的公共数据库之一,SEER 收集了丰富的流行病学和肿瘤学
数据,涵盖了患者的基本情况、肿瘤的原发与转移情况、肿瘤大小、治疗手段、
随访和死亡信息。注册并申请后,研究者即可获得使用权限,使得 SEER 数据库
成为科研的便捷、可靠数据源[51]。然而,SEER 数据库也存在不足:医师的专业
水平差异可能导致数据存在偏倚;治疗记录过于简略,缺乏对辅助治疗、内分泌
治疗、免疫治疗等的详细记录,而当今肿瘤治疗往往是多种方案的联合;实验室
检查的记载过于笼统,同时更缺少后续变化趋势。但总而言之,SEER 数据库在
医学科研发挥了巨大作用。
本 研究 利用 SEER 数 据库的大样 本数据 ,首先通 过一 种机器学 习算 法
(logistic 回归)进行特征筛选和模型构建。随后,采用 3 种不同的机器学习算
法来训练、验证和测试模型,以此建立更为科学和准确的模型。研究结果表明,
基于机器学习的模型表现优异。在综合考虑准确率、精准率、召回率、F1 分数
等评价指标后,随机森林模型在训练集和验证集整体表现最为出色。在性能方面,
本研究基于机器学习建立的预测模型与其他研究相比,预测准确性高于其他基于
国内大样本数据库建立的预测模型,如童兴星[52]的研究中前列腺癌预测模型的
AUC 为 0.913、0.896;也高于其他基于 SEER 数据库建立的预测模型,如廖泽阳
的研究中前列腺癌肺转移预测模型的 AUC 为 0.643[53]。
24
第 5 章 结论
第5章 结论
5.1 主要结论
5.2 不足与展望
本研究存在一定局限性:
1.本研究为多中心回顾性研究,样本受选择偏倚带来的影响较大,因而仍需
前瞻性研究验证;
2.本研究建立的机器学习模型尽管具有出色的预测性能,但临床适用性有限;
3.本研究建立的模型基于美国人群,针对国人预测时难免存在偏差。
25
综述
综述
前列腺癌的分子影像技术现状
一、引言
前列腺癌指发生在前列腺上皮的恶性肿瘤,是男性泌尿生殖系统最常见的恶
性肿瘤之一,其发病率在全球范围内存在显著的地理和种族差异[54]。在西方发达
国家,前列腺癌的发病率和死亡率在男性恶性肿瘤中位居前列[55]。而在亚洲,尽
管前列腺癌的发病率相对较低,但近年来其逐年上升的趋势明显。在我国,前列
腺癌的发病率已上升至男性恶性肿瘤的第 6 位[1]。据世界卫生组织(World Health
Organization,WHO)的数据,2020 年全球前列腺癌新发病例约为 141 万例,死
亡病例约为 37 万例[56]。前列腺癌的病理类型主要包括腺癌、尿路上皮癌、鳞状
细胞癌和腺鳞癌等,其中腺癌是最常见的类型[57]。前列腺癌的治疗策略包括内分
泌治疗、手术、化疗、放疗和姑息治疗,治疗方案的选择基于及时而准确的诊断
[58]
。目前前列腺癌的临床情况可分为以下五类:诊断前的初始肿瘤评估、临床局
限性肿瘤、治疗后 PSA 升高(即生化复发)、非去势抵抗和去势抵抗[59]。前列腺
癌的诊断策略取决于疾病所处阶段。在早期阶段,重点是评估疾病程度和预后,
而晚期阶段则强调确定肿瘤的生物学特征及评估其对全身治疗的反应。与传统成
像相比,使用正确放射性示踪剂进行分子成像可以提高图像的对比度及分辨率,
从而提高了检测疾病部位的灵敏度。此外,分子成像还提供了肿瘤相关的功能或
生物学信息。分子成像技术在前列腺癌的诊治中发挥着越来越重要的作用[60]。本
文就前列腺癌的分子影像技术现状进行综述。
二、前列腺癌的分子显像剂列举及分类
前列腺癌分子显像剂可分为针对雄激素受体(Androgen Receptor,AR)或前列
腺特异性膜抗原(Prostate Specific Membrane Antigen,PSMA)等受体的药物(抗体、
抗体片段或小分子)和代谢药物(小分子)。
2.1. 受 体 靶 向 剂 : 氟 18-5a- 二 氢 睾 酮 ( Fluoro18-5a-dihydrotestosterone ,
18F-FDHT):靶向雄激素受体;ProstaScint(也称 111Ln-capromab pentetide):基
于 PSMA 抗体的示踪剂;huJ591 抗体:基于 PSMA 抗体的示踪剂;镓 68 标记前
列腺特异性膜抗原(68Ga-PSMA);68Ga-HBED-CC、68Ga-DCFBC:低分子量
26
综述
27
综述
28
综述
29
综述
治疗中受益。在这方面,新的分子药物可以帮助排除转移性疾病,并通过骨盆中
前列腺癌沉积物的准确定位辅助进行挽救性治疗。
七、转移性前列腺癌的分子影像
前列腺癌转移最常发生在非区域(骨盆外)淋巴结和骨,内脏转移通常发生在
疾病晚期,预后较差。从治疗的角度来看,重要的是确定转移的存在,同时确定
其位置和程度,并评估其对治疗的反应。目前镭 223 已被证明可以延长有症状性
骨转移、无内脏转移或淋巴结> 3-4 cm 的转移性去势抵抗性前列腺癌患者的生存
期[82]。
7.1 转移灶检测:骨扫描目前仍然是最常用的分子影像学检查。它的原理是
使 用 寻骨 放射性 示 踪 剂 , 例 如 Tc99m 标记 的 二 膦酸盐 ( 用于 单 光 子平面 、
SPECT/CT 成像的二膦酸亚甲基)或用于双光子 PET/CT 成像的 18F-氟化钠(NaF),
即骨灌注和转换的标志物,其主要摄取机制是吸附在羟基磷灰石的晶体结构上或
进入羟基磷灰石[83]。18F-NaF PET/CT 被认为比传统骨扫描敏感性及特异性更高,
在 Even-Sapir 等[84]的一项研究中,230 例 RP 术后生化复发患者的 414 次骨扫描
中,PSA <10ng/mL 的患者骨扫描阳性率仅为 4%,PSA >20.63ng/mL 患者的阳性
率上升>50%,NaF 对前列腺癌转移性疾病的敏感性和特异性均优于常规单光子
骨扫描,均为 100%;常规骨扫描的敏感性为 82%,特异性为 57%。根据 CT 影
像表现,大多数前列腺癌骨转移灶为硬化性灶(80%),其余为溶骨性或混合性灶,
这可能是由于前列腺癌生长速度相对较慢所致以及伴随周围骨骼对肿瘤的限制。
寻骨放射性示踪剂通常只能检测肿瘤的硬化反应,而不是肿瘤本身。而前列腺癌
像其他非骨形成转移一样,骨转移会首先经历骨髓期。在这个阶段,它们只能被
肿瘤定位剂发现,如 18F-FACBC,而 CT 或寻骨剂则无法发现。相反,硬化性
转移瘤可能不需要肿瘤定位剂。总之,PET/CT 联合新型分子药物在局部、非局
部和器官疾病的检测方面优于单独 CT。
7.2 治疗反应检测:单光子和双光子寻骨剂定位机制的一个重要限制是不能
及时准确地检测肿瘤的治疗效果。由于骨扫描和 18F-NaF PET/CT 主要检测周围
骨骼对前列腺癌的反应,在有效的肿瘤治疗下,它们经常表现为保持不变甚至恶
化(即闪烁反应),而治疗反应却可以通过 PSA 下降和或肿瘤定位示踪剂的摄取减
少来证明。同样,利用新型分子显像剂发现,许多前列腺癌淋巴结和器官转移灶
30
综述
31
综述
32
参考文献
参考文献
33
参考文献
34
参考文献
Cancer Incidence and Mortality in the USA [J]. Eur Urol, 2023,84(1): 117-126.
[23] Doll KM, Rademaker A, Sosa JA. Practical Guide to Surgical Data Sets:
Surveillance, Epidemiology, and End Results (SEER) Database [J]. JAMA Surg,
2018,153(6): 588-589.
[24] 靳通通. 基于机器学习的前列腺癌骨转移预测模型的建立及验证 [D]. 兰州
大学, 2023.
[25] 顾伟杰, 朱耀. 2022 版《CSCO 前列腺癌诊疗指南》更新要点解读 [J]. 中国
肿瘤外科杂志, 2022,14(03): 224-232.
[26] Fine SW. Evolution in Prostate Cancer Staging: Pathology Updates From AJCC
8th Edition and Opportunities That Remain [J]. Adv Anat Pathol, 2018,25(5):
327-332.
[27] Greener JG, Kandathil SM, Moffat L, et al. A guide to machine learning for
biologists [J]. Nat Rev Mol Cell Biol, 2022,23(1): 40-55.
[28] Salmon C, Song L, Muir K, et al. Marital status and prostate cancer incidence: a
pooled analysis of 12 case-control studies from the PRACTICAL consortium [J].
Eur J Epidemiol, 2021,36(9): 913-925.
[29] Chang AJ, Autio KA, Roach M, 3rd, et al. High-risk prostate
cancer-classification and therapy [J]. Nat Rev Clin Oncol, 2014,11(6): 308-323.
[30] Nasir A, Bullo MMH, Ahmed Z, et al. Nutrigenomics: Epigenetics and cancer
prevention: A comprehensive review [J]. Crit Rev Food Sci Nutr, 2020,60(8):
1375-1387.
[31] 闵淑慧, 胡依, 郭芮绮, 等. 1990—2019 年中国前列腺癌疾病负担分析及趋
势预测 [J]. 中国肿瘤, 2023,32(03): 171-177.
[32] Omlin A, Pezaro C, Mukherji D, et al. Improved survival in a cohort of trial
participants with metastatic castration-resistant prostate cancer demonstrates the
need for updated prognostic nomograms [J]. Eur Urol, 2013,64(2): 300-306.
[33] He C, Mao Y, Wang J, et al. Nomograms predict long-term survival for patients
with periampullary adenocarcinoma after pancreatoduodenectomy [J]. BMC
Cancer, 2018,18(1): 327.
[34] Park SY. Nomogram: An analogue tool to deliver digital knowledge [J]. J Thorac
35
参考文献
36
参考文献
754-761.
[46] Epstein JI, Egevad L, Amin MB, et al. The 2014 International Society of
Urological Pathology (ISUP) Consensus Conference on Gleason Grading of
Prostatic Carcinoma: Definition of Grading Patterns and Proposal for a New
Grading System [J]. Am J Surg Pathol, 2016,40(2): 244-252.
[47] Sehn JK. Prostate Cancer Pathology: Recent Updates and Controversies [J]. Mo
Med, 2018,115(2): 151-155.
[48] Halabi S, Kelly WK, Ma H, et al. Meta-Analysis Evaluating the Impact of Site of
Metastasis on Overall Survival in Men With Castration-Resistant Prostate Cancer
[J]. J Clin Oncol, 2016,34(14): 1652-1659.
[49] Yuan S, Norgard RJ, Stanger BZ. Cellular Plasticity in Cancer [J]. Cancer Discov,
2019,9(7): 837-851.
[50] Galletti G, Leach BI, Lam L, et al. Mechanisms of resistance to systemic therapy
in metastatic castration-resistant prostate cancer [J]. Cancer Treat Rev, 2017,57:
16-27.
[51] 章鸣嬛, 陈瑛, 汪城, 等. 美国国立癌症研究所 SEER 数据库概述及应用 [J].
微型电脑应用, 2015,31(12): 26-28+32+25.
[52] 童兴星. 基于临床数据的前列腺癌诊断模型构建及验证 [D]. 重庆医科大学,
2022.
[53] 廖泽阳. 基于 SEER 大数据库前列腺癌肺转移预后因素分析及列线图模型的
构建 [D]. 南华大学, 2022.
[54] Isaacs W, De Marzo A, Nelson WG. Focus on prostate cancer [J]. Cancer Cell,
2002,2(2): 113-116.
[55] Ondrusova M, Muzik J, Kliment J, et al. Prostate cancer incidence and mortality
in selected countries of Central Europe [J]. Klin Onkol, 2011,24(2): 126-132.
[56] Siegel RL, Miller KD, Fuchs HE, et al. Cancer Statistics, 2021 [J]. CA Cancer J
Clin, 2021,71(1): 7-33.
[57] Lee SH, Shen MM. Cell types of origin for prostate cancer [J]. Curr Opin Cell
Biol, 2015,37: 35-41.
[58] Desai K, McManus JM, Sharifi N. Hormonal Therapy for Prostate Cancer [J].
37
参考文献
38
参考文献
39
参考文献
40
参考文献
41