非小细胞肺癌复发预测和免疫治疗的甲基化标志物
今天给大家分享的是今年7月份发表在Aging杂志(IF=4.831)上的文章:Identifying CpG methylation signature as a promising biomarker for recurrence and immunotherapy in non–small-cell lung carcinoma。该研究通过机器学习法识别了4个与非小细胞肺癌复发相关的CpG甲基化标记,构建了有效预测非小细胞肺癌患者无复发生存和预后的风险评分模型,并且该模型与肿瘤突变负荷显著相关,即可能预测免疫治疗的疗效。
研究背景
非小细胞肺癌(NSCLC)是肺癌中最常见的肿瘤类型(约87%),以高发病率、高死亡率、预后差等情况威胁着人类健康。因此,研究一种更好的预测复发分子标记具有重要意义。本研究基于TCGA中肺鳞癌(LUSC)和肺腺癌(LUAD)的队列筛选出4个与NSCLC复发相关的CpG甲基化位点,构建了预测复发的风险评分模型,并在另外3个数据集中得到验证;再对DNA甲基化(DNAm)标记的潜在分子机制和临床应用进行探究。
研究过程解读
1.数据来源
DNAm数据来自于TCGA NSCLC队列以及GEO数据库中的GSE66836、GSE39279和GSE119144;对于每个DNAm位点(DMPs),其β值范围0~1。NSCLC RNA-Seq数据、患者临床数据和体细胞突变数据基因表达数据来自于TCGA。NSCLC的蛋白反相阵列(RPPA)数据来自MD Anderson (http://app1.bioinformatics.mdanderson)。
2.NSCLC患者的临床特征
纳入研究的患者来自TCGA NSCLC、GSE66836、GSE39279和GSE119144数据集,其中只有TCGA和GSE119144队列的患者有RFS信息,可用于训练阶段和验证阶段。DNAm标志物筛选的工作流程如图1所示。
图1 CpG标记物选择工作流程图
2.NSCLC中DNA甲基化和基因表达谱
TCGA和GSE66836数据集中的DMPs在肿瘤组和非癌组间进行差异分析,按FDR<0.05筛选差异DMPs(log2FC<0为低甲基化,>0为高甲基化),将两个数据集中得出的DMPs取交集;将TCGA RNA-Seq 数据提交到edgeR包筛选差异基因(DEGs)(FDR<0.05,∣log2FC∣>1)。Spearman秩相关分析DNAm和mRNA表达相关性(r<0, Bonferroni校正P < 0.05),最终筛选出87个DEGs和102个CpGs。
使用R包ComplexHeatmap对87个DEGs进行无监督分层聚类,结果显示肿瘤组织中53个基因表达上调,34个基因表达下调(图2A);对102 DMPs的无监督聚类分析中,结果显示57个DMPs在NSCLC组织中低甲基化,45个DMPs在NSCLC组织中高甲基化(图2B)。
图2 87个DEGs和102个DMPs的无监督分层聚类热图
3.筛选能预测NSCLC复发的CpGs
分别用R包randomForest和glmnet进行随机森林和LASSO-Logistic,共获得35个CpGs (图3A,3B),再将这些CpGs通过LASSO-Cox回归进行降维,获得9个预后相关CpGs位点(图3C, 3D)。另外,对RFS的训练集进行单变量Cox回归,筛选出8个相关的CpGs位点。两项结果共有4个重叠的CpGs位点(图3E)。共13个CpGs和其他临床特征一起纳入多变量Cox回归模型。
重叠的4个CpGs位点用于构建风险评分模型(表1),风险评分中位数-0.0416将患者划分为高低风险两组(图4)。
表1 基于多变量Cox比例危险回归模型的四种预后CpG标记物的特征及其系数
图3 筛选RFS相关CpG并构建风险模型
图4 复发危险因素的生存曲线、生存状态散点图和风险热图
4.DNAm与临床特征的关系以及RPPA分析
TCGA NSCLC复发样本的风险评分明显高于未复发样本,不同分期样本的复发风险存在显著差异,GSE39279和GSE66836数据集也得到了类似的结果(图5A)。结合蛋白表达谱对mRNA表达进行分析,结果显示风险评分与FOXM1和CYCLINB1蛋白表达呈显著正相关(图5B),据文献报道FOXM1高表达与卵巢癌转移及预后不良相关。
图5 基于DNAm风险评分的患者临床、分子和突变特征
5.DNAm标记的GSEA以及与体细胞突变的关系
GSEA结果显示高危组显著富集了主要与E2F靶点、G2M检查点相关的基因签名(图5B),意味着高风险评分与NSCLC的发展是相关的。肿瘤微环境的分析显示风险评分的上升与成纤维细胞增加和免疫细胞比例降低有关(图5C),即风险评分可以预测肿瘤微环境的改变。
使用MutsigCV v.1.41筛选显著突变基因(SMGs)(FDR<0.05)。结果显示风险评分与KRAS、KEAP1、STK11等癌症相关基因的体细胞突变显著相关(图5E)。
6. 甲基化特征与TMB的关系
用R包maftools计算TMB并与甲基化数据匹配,结果显示高风险组TMB较高(图6A),提示基于DNAm的风险评分可以在一定程度上预测NSCLC的免疫逃避。
7. 甲基化特征与DDR基因相关分析
GSVA分析发现高风险组显著富集在与细胞周期相关的过程,暗示了高危状态与细胞增殖激活的相关性,且该DNAm评分可能与DNA损伤反应(DDR)基因(表2)的改变有关。在本研究中,TCGA NSCLC和GSE66836队列的高危组TP53突变频率更高(图6B),说明风险评分越高的NSCLC肿瘤更易发生DNA复制错误;其他的DDR基因的突变与风险评分显著相关(图6B),表明NSCLC中DNAm可能通过改变调控细胞周期和DDR基因对TMB产生影响。
图6 基于DNAm的风险评分与TMB、细胞周期、DNA损伤反应(DDR)基因的相关性
表2 6个相关的DNA损伤修复反应途径及基因
图7 GSE119144队列研究中DNAm与免疫治疗临床反应的关系
8.非小细胞肺癌患者免疫治疗效果的分析
在GSE119144队列中,高危组免疫治疗患者的RFS明显优于低危组(图7A),且高危组患者具有更持久的临床获益,而大多数低风险组患者没有持久的临床获益(图7B)。
9.风险评分与TMB结合的分组法
结合风险评分和TMB对患者分组,这样显著提高了预测免疫治疗临床反应的能力(AUC= 0.965,图7C)。K-M曲线显示,这两个指标组合以及分离的NSCLC患者的生存差异显著 (P = 0.01,图7D)。这些结果提示高风险评分和高突变负荷可能是指导治疗方案以及评估ICBs治疗效果强有力的生物标志。
10. 统计分析
基于R 3.6.2版本进行统计分析。在所有统计学检验中,双尾P < 0.05表示有统计学意义。
结论
组合的DNAm标记(cg00253681、cg00111503、cg02715629、cg03282991)是可靠预测NSCLC复发以及免疫治疗临床效益的生物标志物,阐明了表观遗传调节在疾病复发预测、治疗策略选择和免疫治疗反应评估中的意义。
总结
该研究基于甲基化和转录组以及突变数据,加上相应的训练和验证队列的临床信息,采用机器学习方法初步选择4个能预测NSCLC复发的DMPs,并建立由这4个CpG标记组成的风险评分模型。有同学可能会问,这篇文章是纯生信,怎么也能发到3分以上?我们纵观整篇文章,研究者对筛选出来的4-DNAm标记在3个验证集中进行验证,并且在蛋白表达、体细胞突变、肿瘤突变负荷、分子机制等多方面进行探讨,还结合了临床治疗效果对这一标记进行研究,最终得出这4个CpG标记在预测复发、免疫治疗选择等方面具有较高的价值。虽然是用纯生信的方法来完成整个研究,但文章思路严谨内容丰富、涉及范围广,且研究结果对非小细胞肺癌生物检测以及靶向治疗等方面提供了新的思路。所以只要挑选好的思路、用好工具,生信就不再是“水”的代名词。
请先 后发表评论~