–https://doi.org/10.1038/s41576-024-00796-w
Genomic landscape of cancer in racially and ethnically diverse populations
研究团队和单位
Ulrike Peters–Public Health Sciences Division, Fred Hutchinson Cancer Center
Claire E. Thomas–Public Health Sciences Division, Fred Hutchinson Cancer Center
综述简介
癌症发病率和死亡率在不同种族、族裔中存在显著差异,这是一个重要的公共卫生问题。这些差异是遗传、环境和社会因素复杂相互作用的结果。
虽然在研究遗传风险因素和肿瘤基因组方面取得了进展,但大多数研究集中在欧洲血统的个体中,导致对其他族裔群体的了解不足。
利用组学技术研究不同种族和族裔群体的癌症遗传学,有助于识别遗传特征和癌症基因组分子特征的异同,从而缩小癌症方面的差距,并确保个体化医疗的公平性。
癌症的负担和种族差异:
癌症是美国和全球许多国家的主要死因。
例如:非裔美国人男性前列腺癌的风险和死亡率远高于非西班牙裔白人男性。
黑人女性更容易被诊断出侵袭性三阴性乳腺癌。阿拉斯加原住民的结直肠癌发病率和死亡率在全球所有种族和族裔人口中最高。
这些差异往往很难被挖掘出来,因为不同族裔的数据经常被合并呈现,导致对特定群体的风险评估不准确。
导致癌症发病率和死亡率差异的因素很复杂,如:社会构建的种族和族裔群体、性别、医疗保健、社会经济地位、遗传血统和环境污染等。遗传因素在癌症风险中起重要作用,包括种系遗传变异、体细胞突变和其他分子特征。
研究方法和意义
如今,多组学、单细胞和空间分辨技术为研究基因组和进行肿瘤分子谱分析提供了有力工具。这些技术有助于深入了解遗传和环境风险因素的影响,并识别不同种族和族裔群体在遗传因素和癌症基因组分子特征方面的共性和差异。
了解遗传风险因素有助于深入了解癌症发展的生物学机制,并识别高风险个体,从而实现精准预防。这些发现还有可能确定新的药物靶点。
研究现状和挑战:
以往的研究主要集中在欧洲血统的个体中,导致对其他族裔群体的了解不足。
需要更多针对不同种族的研究,以缩小癌症方面的差距,并确保个体化医疗的公平性。
1.种系遗传研究
可遗传的遗传因素在癌症易感性中起重要作用,但其贡献程度因癌症类型而异。
据估计,前列腺癌高达 60% 的风险归因于遗传因素,而胃癌的遗传贡献估计较低,约为 25%。这些遗传力估计主要来自双胞胎研究,因此无法推广到不同的人群中。
虽然在全球范围内扩展欧洲国家以外的双胞胎登记和谱系数据方面取得了重大进展,但仍不足以确保这些研究包括种族和族裔多样化的人群。可以利用全基因组数据并考虑局部血统的方法,来扩展我们对不同种族和族裔群体中遗传力的认识。
2.在不同种族、族裔人群中的高外显率基因
2.1 高外显率基因的特征
高外显率等位基因对疾病风险有重大影响,这些等位基因通常在一般人群中较为罕见,可能包含基因异质性(即同一基因内的多个罕见突变独立影响疾病)和位点异质性(即不同基因中的罕见变异可能参与相关的疾病通路),罕见的致病突变可能只存在于少数家庭或个体中,难以在群体水平上识别出来。
而且同一基因内的罕见突变在频率和对疾病易感性的影响程度上均有所不同。例如,BRCA1 和 BRCA2 基因中已发现数千个突变,它们与卵巢癌或乳腺癌风险的关联程度各不相同。
–导致乳腺癌的遗传变异–https://doi.org/10.1126/science.1251827
2.2 早期研究的局限性
高外显率基因的发现主要基于家庭和连锁研究,但早期研究主要集中在欧洲血统个体,排除了发现特定种族和族裔群体特有遗传位点的可能性,导致非欧洲血统人群中意义不明的变异 (VUS) 比例较高,影响了风险评估和临床建议的准确性。
–致病突变和意义不明确的变异的分布–https://doi.org/10.1200/op.22.00090
2.3 特定族裔的例子
在前列腺癌中,已在不同人群中确定了 HOXB13 基因中的独特突变,例如在非裔美国男性中发现的 X285K 变异与前列腺癌风险相关,且与更具侵袭性和更早诊断年龄相关。
阿什肯纳兹犹太女性乳腺癌风险较高,部分归因于该族裔群体中 BRCA1 和 BRCA2 致病突变患病率更高。
但目前急需包含不同种族和族裔人群的大规模测序研究,以更全面地了解种族特异性和族裔特异性的风险变异和基因。
3.种族和民族多元化人群中的中度风险变异
3.1 中等风险变异的种族和族裔特异性:
越来越多的研究发现与中等疾病风险相关的变异,其比值比通常超过约 2。这些变异通常在包含高外显率变异的基因中被发现,这可能反映了对这些著名基因进行深入研究而产生的偏差。
例如:
- 8q24 区域包含多种癌症类型的多个风险位点,一个特定的风险位点是非洲血统个体特有的,并显示出与前列腺癌的关联,解释了非裔美国男性中观察到的前列腺癌风险升高的一部分原因。
- APC 基因中一个中等外显率的错义变异在阿什肯纳兹犹太个体中频率较高,但在其他人群中几乎不存在。
这些发现强调了这些变异对特定人群疾病风险的重要贡献,并且只能通过在特定人群中进行的研究来确定。
3.2 特定年龄风险的重要性:
了解与这些遗传因素以及许多高外显率基因相关的特定年龄风险对于指导有针对性的干预措施至关重要,比如确定开始筛查的适当年龄。
乳腺癌研究例证了评估总体和特定年龄风险的价值,确定了不同易感基因(如 BRCA1、BRCA2、PALB2、ATM、CHEK2 等)的风险类别和绝对风险估计,并发现乳腺癌的绝对风险因年龄和易感基因的突变而异。
年龄–突变基因基于人群的乳腺癌绝对风险计算–https://doi.org/10.1056/nejmoa2005936
例如,BRCA1 或 BRCA2 携带者的终生乳腺癌绝对风险较高,建议在 30 岁开始筛查,一般风险人群的平均年龄为 40 或 45 岁;而 ATM、BARD1 或 CHEK2 携带者在 40 岁时的风险与一般人群相似,但 60 岁左右的风险高于一般人群,可能需要对晚年携带这些较低外显率致病变异的人进行额外筛查。
3.3 现有研究的局限性:
目前研究中一个明显的缺点是缺乏多样性,这限制了研究结果的普遍性。为了更全面地了解遗传变异在疾病风险中的作用,未来的研究应优先考虑多样性,包括来自各种种族和族裔背景的个体。
4.不同种族和族裔人群中常见的癌症遗传风险因素
4.1 GWAS 的局限性:
癌症风险的构成不仅仅由高外显率或中等外显率的变异决定的。GWAS 发现了许多与疾病相关的遗传风险位点,但早期研究主要集中在欧洲血统个体(仅占全球人口的 16%,但在 GWAS 的所有参与者中占了近 80%),导致缺乏多样性,影响了研究结果的普适性。
–https://doi.org/10.1038/s41588-019-0379-x
为了避免人群结构混淆,最初的 GWAS 经常限制研究对象,排除了样本量较小的不同种族和族裔群体,尤其是混合血统的个体。这些研究的有效性主要因样本量小的限制而受到阻碍。
4.2 常见风险位点的一致性和变异性:
研究发现,许多常见的风险位点可以在不同的种族和族裔群体中观察到,且效应大小相对相似。例如:
在非裔美国人群中利用了局部血统的概念,以证明非洲和欧洲血统个体之间效应大小的异质性缺乏实质性证据。这一发现强调了两个相关的点:
- ①常见的风险位点倾向于在不同的种族和族裔群体中表现出一致性;
- ②与这些风险位点相关的效应大小在不同的种族和族裔背景中保持相对相似。
–https://doi.org/10.1038/s41588-023-01338-6
然而,潜在风险等位基因的频率在不同人群中可能存在很大差异,甚至在某些群体中可能不存在。因此,每个变异对癌症风险的贡献可能因个体的种族和族裔而异。例如,6q25 上的一个风险变异对西班牙裔女性的激素受体阴性乳腺癌风险影响较小。
4.3 风险位点的转移:
将特定遗传变异从一个群体转移到另一个群体是不一定可行的,因为我们对与大多数常见风险位点相关的众多相关变异中真正致病变异的了解有限。变异之间的连锁(连锁不平衡)可能因遗传血统而异,这意味着在一个群体中显示信号的风险位点内的部分相关变异可能在其他群体中不显示信号。
因此,在不同种族和族裔群体中复制的是遗传风险位点或区域本身,而不一定是其中的特定变异。这给将一个群体中开发的多基因风险评分 (PRS) 转移到其他群体带来了挑战。
4.4 精细定位和功能研究:
连锁不平衡的差异也可以用于跨祖先精细定位研究,以确定真正致病变异。精细定位工作已显示出显著的成功。
–https://doi.org/10.1038/s41576-018-0016-z
将精细定位研究与功能后续研究相结合,有望确定致病变异。高通量方法(如大规模平行报告基因检测)和功能验证(如 CRISPR-Cas 基因组编辑)将提高我们对疾病潜在致病变异的理解,并提高风险位点在不同种族和族裔群体中的可转移性。
未来的研究需要使用更大、更多样化的数据集,以全面揭示遗传因素在不同人群癌症风险中的作用。
5.用于精准医疗的多基因风险评分(PRS)
5.1 PRS 的应用:
通过计算个体携带的风险等位基因数量,并根据观察到的关联强度(遗传变异的效应大小)对等位基因进行加权,PRS 可以识别癌症高风险个体,从而进行更早和更频繁的筛查等精准预防策略。
使用全基因组数据并考虑连锁不平衡结构的方法可以进一步提高风险预测。
–https://doi.org/10.1016/j.ajhg.2015.09.001
5.2 PRS 的局限性:
由于信噪比低,这些全基因组 PRS 需要非常大的样本量,并且通常最终包含超过一百万个 SNP。而且因为遗传研究中以欧洲为中心的偏见,目前的 PRS 在预测欧洲血统个体风险方面更有效,在其他族裔群体中表现不佳,尤其是在非洲血统的个体中。
–https://doi.org/10.1016/j.ajhg.2023.05.010
在一个人群中显示的信号更有可能改善该人群癌症风险预测,但许多相关遗传变异中,只有一部分在其他人群中有信号显示。因此,使用欧洲遗传数据来指导其他种族和族裔群体中 PRS 的开发可能导致表现不佳,这是系统性的。
5.3 改进 PRS 的方向:
增加代表性不足的种族和族裔群体的样本量,并改进 PRS 开发的统计方法,以考虑自我种族和族裔以及遗传祖先的连锁不平衡差异。
利用功能基因组数据(特别是组织特异性单细胞数据)来识别潜在的功能变异,从而改进 PRS 的开发,使其在不同种族和族裔人群中更适合地有用。
5.4 临床价值评估和微观模拟模型:
目前迫切需要评估 PRS 用于风险分层筛查的临床价值,因为此类检测中包含的许多评分主要来自欧洲血统人群。
虽然现在正在努力将 PRS 的开发和验证扩展到更多样化的祖先人群,但前瞻性试验应测试基于 PRS 的风险分层干预措施的影响,此类试验成本高昂且耗时,需要侧重于有限数量的特定风险分层和筛查方式。
为了平衡这些限制,人们开发、改进和验证了微观模拟模型。微观模拟模型可以评估 PRS 的成本效益,并根据个体风险(包括种族和族裔差异)计算最佳的筛查策略,从而更好地针对筛查策略,以减少健康不平等。
–https://doi.org/10.1016/j.cgh.2023.03.003
6.体细胞遗传学研究
6.1 来自癌症基因组的见解
研究体细胞突变和其他肿瘤特征对于增进我们对癌症分子机制的理解、识别潜在的药物靶点、优化治疗策略以及最终提高癌症生存率至关重要。
6.1.1 现有研究的局限性:
现有研究主要集中在欧洲血统的人群中,例如 ICGC/TCGA 项目,其中欧洲血统的参与者比例过高。TCGA 描述了超过 44,000 个病例和 69 个原发性癌症部位;然而在报告了种族数据的参与者中,74% 是白人,而根据美国人口普查,美国人口中只有 58% 自认为是无西班牙裔白人。即使比例与美国人口分布一致,少数族裔的绝对样本量仍然有限,限制了推断和研究的统计功效。例如,TCGA 中黑人或非裔美国男性前列腺癌病例的样本量严重不足( 63 例(7%)),尽管该群体具有最高的发病率和死亡率。
如果分子癌症研究和临床指南没有考虑到种族和族裔群体的差异,那么新技术和治疗方法可能会加剧而不是减少现有差异。例如,FDA 已经批准了针对肿瘤突变负荷 (TMB) 至少为每兆碱基 10 个突变的癌症的免疫检查点抑制剂,有一项大型研究证明:FDA 已经批准了针对肿瘤突变负荷 (TMB) 至少为每兆碱基 10 个突变的癌症的免疫检查点抑制剂,这可能影响他们获得免疫检查点抑制剂治疗的机会。
–https://doi.org/10.1136/jitc-2021-003683
6.1.2 解决局限性的方法:
利用与 FFPE 肿瘤样本兼容的先进肿瘤分析技术,基于档案组织库开展研究,以更快地增加来自不同种族和族裔群体的癌症患者数量。将临床数据与肿瘤样本整合,以扩展可用研究数据的广度和深度。放宽或更灵活地实施 NIH 资助规则中关于档案组织库数据共享的要求,以促进更多样化的研究,从而得出有意义的结论。
新技术提高了检测多种肿瘤特征的能力,但也增加了由于多重假设检验而稀释统计显著性的风险。因此,最好首先侧重于识别在所有种族和族裔群体的联合分析中与关键结果直接相关的肿瘤特征。然后,再探索这些特征的患病率在不同种族和族裔群体中是否存在显著差异,并评估这些差异是否会导致观察到的癌症结果差异。
例如,针对乳腺癌亚型(尤其是三阴性乳腺癌)的基因表达数据的研究表明,非洲血统女性的三阴性乳腺癌负担最重,并发现了与非洲血统相关的基因和独特的肿瘤相关免疫学特征。将种族和族裔比较侧重于最具影响力的肿瘤特征或临床相关的亚型,可确保比较有意义,并为最关键的研究问题保留统计功效。
–https://doi.org/10.1158/2159-8290.cd-22-0138
随着不同种族和族裔人群的技术和样本量的提高,认识到调整已知分子特征的重要性至关重要,以确保针对种族和族裔群体之间差异的新发现是新颖的,而不是缺乏调整的结果。
例如,在 CRC 研究中,非裔美国患者的左侧肿瘤发生率更高,并且具有微卫星不稳定性 (MSI)(一种重要的亚型)的肿瘤可能因不同的种族和族裔群体而异。肿瘤位置和 MSI 在肿瘤特征中部分显示出截然不同的频率。
–https://doi.org/10.1038/s41467-020-17386-z
需要针对 MSI、发病年龄或肿瘤位置等已知因素进行调整,以确保新发现真正与种族和族裔群体差异相关,而不仅仅反映了潜在的已知肿瘤特征的差异。
6.2 识别独特人群暴露的突变特征
6.2.1 突变特征的来源:
肿瘤中的突变特征由核苷酸变化和 DNA 序列背景决定,可以深入了解驱动肿瘤发生的诱变过程。这些过程可以是内源性的,也可以由外部因素(例如诱变物暴露)引起。
已鉴定出接近 100 种不同的特征,其中一些与暴露相关,例如微生物组、病毒、紫外线辐射、烟草、特定致癌物(包括苯并芘、黄曲霉素、卤代烷烃、钴和马兜铃内酯)。
6.2.2 现有研究的局限性和新项目:
与种系遗传研究一样,这些帮助识别新突变特征的大规模全基因组测序工作主要在欧洲人群中进行,限制了我们对潜在种族和族裔群体差异的理解。
目前正在开发包含更多样化患者人群的新项目,例如 Mutographs 项目,该项目关注五大洲 30 个国家/地区的特定癌症,以更好地了解全球癌症发病率差异。该项目利用不同人群之间癌症发病率差异来识别已知和未知的突变特征以及与癌症病因不明的癌症相关的危险因素,例如透明细胞肾细胞癌和食管鳞状细胞癌。
–https://doi.org/10.1016/j.xgen.2024.100500
6.2.3 不同种族和族裔群体的独特暴露和突变特征:
不同种族和族裔群体的独特暴露会导致特定的突变特征,从而导致癌症发生率的差异。环境污染、饮食和微生物组在不同种族和族裔群体内差异很大,可能会产生独特的特征。
通过将突变特征与来自细胞系实验或动物模型的实验工作衍生的特征不断增长的数据库相关联,我们可以根据肿瘤测序数据推断环境致癌物和诱变过程。
例如,马兜铃内酯是一种天然化合物,存在于许多草药产品中,在欧洲和传统中医中均有渊源。在罗马尼亚、塞尔维亚和泰国的透明细胞肾细胞癌病例中,发现大多数病例都具有马兜铃内酯化合物特征的突变特征,而在其他国家则很少见。这种地理差异表明,东南欧和东亚人群获得这些突变的程度可能远高于预期。
鉴于中国、台湾和其他亚洲国家使用含有马兜铃内酯的草药进行治疗和疾病预防,因此了解这种特定暴露如何影响暴露人群至关重要。SBS22 突变特征提供了一个独特的机会,可以促进生物标志物开发,用于识别和筛查,以减轻这种公共卫生问题的负担。
7.种系和体细胞遗传学研究
7.1 种系遗传学和体细胞遗传学之间的相互作用
大多数关于遗传变异的研究都集中在种系或体细胞变异上。然而,将两者放在一起研究可以揭示它们之间的相互作用,从而更全面地理解癌症的发生和发展。
7.1.1 种系遗传学对体细胞突变的影响:
一项针对拉丁美洲肺癌的研究发现,美洲原住民血统与体细胞突变(如 TMB 以及 EGFR 和 KRAS 基因中的特定突变)密切相关,并且种系遗传学会调节 EGFR 和 KRAS 突变状态。
–https://doi.org/10.1158/2159-8290.cd-20-1165
一项针对乳腺癌的研究发现,种系变异通过免疫编辑(其压力在疾病过程中有所不同)来影响疾病严重程度和体细胞进化。
此外,肿瘤-正常配对可以为这两种数据来源生成高质量的变异检出。
7.1.2 TCGA 数据集的相关研究:
TCGA 数据集检查了来自 33 种癌症类型的 10,000 多个肿瘤,以寻找遗传祖先与其分子相关性(例如突变率、DNA 甲基化、mRNA 和 microRNA 表达)之间的关联。
虽然最初发现的大多数与祖先相关的差异在针对癌症亚型进行调整后不再显著,但一些差异仍然显著,例如非洲血统的肾癌患者中较低的 VHL 和 PBRM1 突变。
TCGA 数据集中发现的体细胞突变谱与种系 PRS 之间的关联可以深入了解癌症发展的机制,例如与种系和体细胞变异相互作用相关的激素调节和免疫反应。
TCGA 的一项跨癌症meta分析表明,常见的种系遗传变异不仅影响癌症风险,还影响发病年龄和体细胞突变负荷;然而,这项研究仅在欧洲血统的参与者中进行。
–https://doi.org/10.1158/0008-5472.can-22-1492
鉴于 TCGA 数据集中已知的多样性限制,需要其他数据来源来确保在更具代表性的人群中进行种系和体细胞变异的相互作用研究。
7.2 人类白细胞抗原区域的变异
7.2.1 HLA 的基本功能和多样性:
HLA 区域负责向免疫系统呈递多种抗原,是人类基因组中多态性最高的区域。
HLA 系统大致分为 I 类和 II 类区域:
- I 类分子呈递抗原给 CD8+ T 细胞,并在大多数有核细胞上表达。
- II 类分子呈递抗原给 CD4+ T 细胞,并在抗原呈递细胞上表达。
HLA 区域非常多样化,并根据祖先背景而异。通过 HLA 基因区域的杂合性来衡量的抗原呈递多样性表明,HLA 中具有更多杂合基因型的个体向 T 细胞呈递更广泛的肿瘤抗原以供识别,并具有更好的适应性。
7.2.2 HLA 变异与癌症的关系:
在癌症中,HLA 基因区域的种系和体细胞变异会影响癌症风险、生存、肿瘤免疫谱和对免疫疗法的反应:
-
更大的种系 HLA 杂合性与降低的结直肠癌 (CRC) 风险显著相关,并且可能与更高的肿瘤浸润淋巴细胞丰度有关。
-
种系 II 类 HLA 杂合性与吸烟者(而非从不吸烟者)的肺癌风险降低相关。
-
HLA 种系变异先前已与免疫相关表型和癌症对检查点阻断免疫疗法的反应相关。
-
肿瘤中 II 类 HLA 表达的缺失与 CRC 中较低水平的肿瘤浸润 T 细胞和更大的转移机会相关。
-
已在 70% 的 CRC 患者中发现了体细胞 HLA I 类改变,这表明 HLA 突变是癌症中常见的免疫逃避机制。
-
HLA-DP 基因已在乳腺癌中过度表达并与更好的预后和免疫浸润相关。
-
肿瘤组织中的 HLA II 类抗原表达与更好的预后相关。
7.2.3 HLA 区域研究的挑战和解决方案:
为了确保准确和可推广的发现,必须在不同种族和族裔人群中评估 HLA 区域。HLA 区域具有很高的遗传多样性,但在 HLA 区域的特定片段中也具有很高的连锁不平衡。
可以使用可用的 GWAS 数据使用遗传变异来估算四位数 HLA 等位基因,但这在基因分型平台和不同 HLA 等位基因的频率方面,以及按种族和族裔方面可能存在变异,目前的估算面板主要基于欧洲血统的人群。
–https://doi.org/10.1371/journal.pone.0172444
非裔美国人的估算和 HLA 测序之间的一致率较低,这可能是由于在更广泛的遗传流行病学中过度依赖欧洲血统的人群,以及非洲血统个体中较小的单倍型嵌段。
HLA 区域的下一代测序(特别是长读测序)可以为高通量和高分辨率提供独特的机会,生成全长 HLA 等位基因的 phased 序列,这将解决先前在传统方法中发现的 phasing 中的歧义。长读 HLA 测序已显示可改善造血细胞移植患者的 HLA 配型,从而显著改善患者的生存结果。
因此,需要在不同种族和族裔人群中使用长读测序或估算面板对 HLA 区域进行准确评估,以避免加剧癌症和基因组研究领域中现有的差异。
8. 总结
新的多组学、单细胞和空间技术正在产生大量数据,这些数据有可能提高我们对种系和体细胞遗传学对癌症机制和结果影响的理解。
研究人员必须考虑不同种族和族裔群体的影响,以确保这些技术进步能够改善所有人的癌症风险分层和护理。需要恰当地使用种族和族裔或遗传祖先的术语,以确保对研究结果的准确解释。
未来研究方向:
-
种系遗传研究:进一步研究破译不同种族和族裔群体的遗传力,并有可能提高我们对潜在生物学、潜在药物靶点和个体化风险评估的理解。针对不同种族和族裔群体的大规模测序研究以及纳入连锁不平衡结构的 PRS 的开发可以提高个体化医疗建议的公平性以及所有群体的风险预测。
-
体细胞测序研究:改进现有研究中主要集中在欧洲和亚洲人群的现状,将研究扩展到其他群体,以避免治疗差异。利用先进的肿瘤分析技术和档案组织库(尤其是 FFPE 组织),以利用现有样本改进不同种族和族裔群体肿瘤特征的研究。
-
数据分析和研究设计:基于人群的研究设计应侧重于识别与死亡率或其他结果相关的肿瘤特征,而不是可能没有临床效用的种族和族裔群体差异,以有效利用统计功效和避免偏差,从而减少癌症差异。强调需要考虑已知的分子特征,例如 TMB、激素受体状态或 MSI,以确保在不同种族和族裔群体中获得有意义和准确的发现。