Nat Commu最新:利用TCGA数据库多癌种多组学数据分析肿瘤和年龄的关系

发布于 2021-04-29 07:40

年是罹患癌症的最大风险因素,因为在大多数癌症类型中,癌症的发病率和死亡率均随年龄呈指数增长。然而,衰老与癌症分子决定因素之间的关系仍有待表征。在达尔文式的过程中,癌症是通过体细胞突变与选择之间的相互作用而产生的。因此,除了随着年龄的增长积累突变外,衰老过程中的微环境变化也可能在致癌作用中起作用。因此,我们假设,由于组织环境变化引起的选择性压力随年龄的变化而不同,不同年龄段的患者引起的肿瘤可能具有不同的分子格局。因此,某些分子变化可能在老年或年轻患者中或多或少地普遍存在。

最近,一些研究调查了癌症基因组中与性别和种族等临床因素相关的分子差异。这些研究证明尽管已经系统地表征了儿童期癌症和成人癌症之间基因组改变的差异,但成人癌症中与年龄相关的基因组格局仍然难以捉摸。在几种癌症类型的癌症基因组中已经报道了与年龄相关的特定分子格局,例如,成胶质细胞瘤,前列腺癌和乳腺癌。但是,这些研究主要集中在单一癌症类型上,仅集中在某些分子数据类型上。在这里,我们使用来自癌症基因组图谱(TCGA)的数据,系统地研究了与年龄相关的基因组不稳定性(GI),体细胞拷贝数改变(SCNA),体细胞突变,途径改变,基因表达和DNA甲基化之间的差异癌症类型。

我们表明,一般来说,胃肠道和突变频率随年龄增长而增加。我们确定了几种年龄相关的基因组改变,特别是在低度神经胶质瘤和子宫内膜癌中。此外,我们还证明了与年龄相关的基因表达变化部分受与年龄相关的DNA甲基化变化的控制,并且这些变化与许多生物学过程有关。


与年龄相关的综合分析跨癌症的全基因组图谱

Abstract

年龄是最重要的癌症危险因素,因为癌症的发病率和死亡率会随着年龄的增长而增加。然而,在不同年龄的患者中,肿瘤中的分子变化如何不同仍在很大程度上尚待探索。在这里,我们使用TCGA中的数据,全面描述了与癌症类型不同的患者年龄相关的基因组,转录组和表观遗传学变化。我们显示,来自老年患者的肿瘤在基因组不稳定性,体细胞拷贝数改变(SCNAs)和体细胞突变中总体上增加了。在跨不同癌症类型的几个癌症驱动基因中鉴定出了与年龄相关的SCNA和突变。在神经胶质瘤和子宫内膜癌中发现最大的年龄相关基因组差异。我们确定与年龄有关的全球转录组学变化,并证明这些基因部分受与年龄相关的DNA甲基化变化的调节。这项研究为癌症中与年龄相关的变化提供了全面的,多组学的观点,并强调了年龄是癌症研究和临床实践中要考虑的重要因素。

  上图

1癌症患者的年龄与基因组不稳定性(GI)评分,基因组杂合丢失率(LOH)和全基因组重复事件(WGD)之间的关联。

点按癌症类型的着色。图中显示了多元线性回归R平方和p值。没有进行多重假设检验校正(单一检验)。。显示了线性回归系数和有效值。使用Benjamini-Hochberg程序进行了多假设检验校正。使用多重线性回归(调整p值<0.05)后,年龄与GI评分之间存在显着着正相关的癌症。以红色突出显示。黑色显示了在简单线性回归中具有显着关联但在使用多重线性回归后不显着的癌症。灰线表示调整。p值= 0.05。点的大小与中位GI分数成正比。c年龄与泛癌基因组LOH百分比之间的关联。点按癌症类型着色。图中显示了多元线性回归R平方和p值。没有进行多重假设检验校正(单一检验)。d年龄与癌症类型特异性基因组LOH百分比之间的关联。图中显示了线性回归系数和有效值。使用Benjamini-Hochberg程序进行了多假设检验校正。使用多元线性回归后,年龄与基因组LOH比例之间存在显着着正相关。和显示相关的癌症分别以红色和蓝色突出显示。黑色显示了在简单线性回归中具有显着关联但在使用多个线性回归后不显着的癌症。灰线表示调整。p值= 0.05。点e泛癌中的年龄与WGD事件之间的关联(FALSE n = 5313,TRUE n = 4365个样本),OV(FALSE n = 207,TRUE n = 349个)样本)和UCEC(假n = 294,真n = 140个样本)。。该框表示四分位间距(IQR),第25至第75个百分位。晶须的距离为1.5×IQR。表1提供了TCGA癌症类型首字母缩写词及其相关名称。


2癌症患者的年龄与体细胞拷贝数变化(SCNA)之间的关联。

火山图代表年龄与(a)总体,(b)焦点水平和(c)染色体/臂水平SCNA得分之间的关联。显示了线性回归系数和有效值。使用Benjamini-Hochberg程序进行了多假设检验校正。使用多元线性回归(调整p值<0.05)后,年龄和SCNA评分之间具有显着正相关和负相关性的癌症分别以红色和蓝色突出显示。黑色显示了在简单线性回归中具有显着关联但在使用多重线性回归后不显着的癌症。灰线表示调整。p值= 0.05。点大小与SCNA中位数成正比。d,e左右圆点图显示了年龄与手臂水平的复制数增加和复制数减少之间的关联。显示了多个逻辑回归系数和显着值。使用Benjamini-Hochberg程序进行了多假设检验校正。圆圈大小对应于显着性水平,红色和蓝色分别表示正向和负向关联。f,g热图分别表示LGG和UCEC中的臂级拷贝数更改。样品按年龄分类。颜色代表GISTIC2.0的拷贝数变化,蓝色代表损失,红色代表收益。表1提供了TCGA癌症类型首字母缩写词及其相关名称。


3癌症患者年龄与病灶水平SCNA之间的关联

a与每种癌症类型的年龄显着相关的获得和缺失的病灶区域数量(多重逻辑回归,调整p值<0.05)。使用Benjamini-Hochberg程序进行了多假设检验校正。显示(b)LGG和(c)UCEC中与年龄相关的焦点级别SCNA的热图。样品按年龄分类。颜色代表GISTIC2.0的拷贝数变化,蓝色代表损失,红色代表收益。gain_or_loss图例表明该区域是反复获得或删除的。方向图例显示该区域的收益/损失是随着年龄增长还是减少。d癌症驱动基因中与年龄相关的SCNA变化。通过癌症类型绘制位于与年龄相关的焦点区域中的癌症驱动基因。点的颜色表示基因所位于的焦点区域的状况,如下所示:蓝色-减少损失;绿色-损失增加;黄色-减少增益;和红色-随着年龄的增长而增加。e拷贝数变化对LGG中CDKN2A基因表达的影响(高丢失n = 50,丢失n = 102,无变化n = 327,增益n = 8,高增益n = 1个样本),MYC在OV(高损耗n = X,损耗n = 10,无变化n = 56,增益n = 82,高增益n = 140样本),CREBBP(高损耗n = 3,损耗n = 36,无变化n = 101,增益UCEC中的n = 8,高增益n = 2个样本)和RIT1(无变化n = 72,增益n = 53,高增益n = 25个样本)。这些是在SCNA中具有与年龄相关的变化的基因的例子。小提琴图显示了按SCNA状态分组的样本的log2(归一化表达式+ 1)。图中显示了皮尔逊相关系数r和p值(双向检验)。箱线图的中间条是中位数。该框表示四分位间距(IQR),第25–75个百分点。晶须的距离为1.5×IQR。表1提供了TCGA癌症类型首字母缩写词及其相关名称。


4癌症患者年龄与体细胞突变之间的关联。

患者年龄与全癌突变负担之间的关联。提出了来自多元线性回归分析的调整后R平方和p值。没有进行多重假设检验校正(单个b在年轻(年龄≤50)和老龄(年龄> 50)UCEC中高突变肿瘤(> 1000个突变/外显子组)的比例。统计显着性(p值)是使用双面Fisher精确FALSE n = 286,TRUE n = 106个样本。从针对临床变量进行调整的多元逻辑回归计算统计学显着性(p值)。)。d年龄与UCEC中位数/ POLD1突变之间的关联。假错误n = 359,正确n = 62个样本。POLD1 FALSE n = 392,TRUE n = 29个样本。箱线图的中间条是中位数。该框表示四分位间距(IQR),第25–75个整数。晶须的距离为1.5×IQR。。e年龄与突变之间的全癌联系。显示了多个逻辑回归系数和显着值。使用Benjamini-Hochberg程序进行了多假设检验校正。使用多重逻辑回归(调整p值<0.05)后,年龄。与体细胞突变之间具有显着着正相关和负相关的基因分别以红色和蓝色突出显示。。使用Benjamini-Hochberg程序进行了多假设检验校正。图中仅显示具有显着关联(调节p值<0.05)的基因。提供了一种颜色代码来表示在年龄和基因突变之间存在关联的癌症类型。。g热图显示GBM和LGG中与年龄相关的突变。样品按年龄分类。颜色代表突变的类型。正确的注释图例指示随年龄变化,增加或减少突变的方向。样品的突变负担显示在热图上。表1提供了TCGA癌症类型首字母缩写词及其相关名称。


图5癌症患者年龄与致癌信号通路改变之间的关联。

泛癌水平中年龄与致癌途径改变之间的关联。显示了多个逻辑回归系数和显着值。使用Benjamini-Hochberg程序进行了多假设检验校正。年龄与改变之间具有显着正相关性的通路(调整p值<0.05)以红色突出显示。b癌症特定的年龄相关途径改变。在每种癌症类型中,与年龄显着正相关和负相关的途径(多重逻辑回归,调整p值<0.05)分别用红色和蓝色圆点显示。使用Benjamini-Hochberg程序进行了多假设检验校正。c热图显示了LGG中与TP53和细胞周期途径相关的基因与年龄相关的变化。样品按年龄分类。颜色代表变更的类型。表1提供了TCGA癌症类型首字母缩写词及其相关名称。

6癌症中与年龄相关的基因表达受年龄相关的甲基化控制。

多种癌症类型的年龄DEG和年龄DMG。红点表示上调的基因,而蓝点表示下调的基因。点的大小对应于基因的数目。b年龄DEG和年龄DMG之间重叠的维恩图。以LGG和BRCA为例。其他癌症的维恩图显示在补充图13中。c年龄-DMG和年龄-DEG之间重叠基因的分布。这些基因分为(1)甲基化和表达下调,(2)甲基化和表达下调,(3)甲基化和表达下调以及(4)-甲基化和表达上调。d小提琴图显示了LGG和BRCA中甲基化和基因表达之间的Pearson相关系数的分布。将基因分为(1)在age-DMG和age-DEG之间的共同基因(age-DMGs-DEGs),(2)仅age-DMGs基因,(3)仅age-DEGs基因和(4)其他基因。LGG其他n = 5841,age_DEGs n = 2635,age_DMGs n = 3087,age_DMGs_DEGs n = 2212个基因; BRCA其他n = 9726,age_DEGs n = 2550,age_DMGs n = 928,age_DMGs_DEGs n = 438个基因。通过Kruskal–Wallis检验进行组比较。成对比较是使用双面Dunn检验完成的。显示了Dunn检验在年龄-DMGs-DEGs和通过Bonforroni校正调整的其他组之间的P值。补充图14中显示了其他癌症的图。e通过LGG和BRCA中的基因集富集分析(GSEA)鉴定的富集基因本体(GO)术语。点大小对应于有效水平(置换测试)。使用Benjamini-Hochberg程序进行了多假设检验校正。GO词被认为是显着丰富的词(如果可调整)。基因表达和调整的p值<0.05。对于甲基化,p值<0.1。颜色代表财富得分,红色代表正得分(在老年患者中增强),蓝色代表负得分(在年轻患者中增强)。补充图15显示了其他癌症的图表。表1中提供了TCGA癌症类型的首字母缩写及其相关名称。