正如我们之前讨论过的,我们对人类基因组的理解上的差距使得变异分类变得极其困难。然而,随着时间的推移,我们的知识不断增加,帮助我们提高效率的工具也越来越多。 让我们从我们第一篇关于变量的文章开始。在检查了Ensemble以了解更多关于您最喜欢的基因的信息之后,您需要卷起袖子开始工作——您应该直接访问dbSNP数据库。 单核苷酸多态性数据库 dbSNP由国家生物技术信息中心(NCBI)提供。在这里,您可以检查是否有人发现了您的变体。dbSNP不仅包含单核苷酸多态性(单核苷酸多态性),还包含许多其他类型的变异,如短缺失、插入和多核苷酸多态性。 关于dbSNP有两大类数据: 由使用“提交的SNP”(ss)标识符可识别的用户提交的数据 通过将来自多个提交的数据和来自其他数据源的数据组合在一起产生的数据,可以用“引用SNP”(rs)数字进行标识。 如图1所示,dbSNP提供了关于您的变体的大量信息。它将显示任何可用的rs id(图1A)。在这里的BRCA2示例中,您可以看到,dbSNP不仅提供了一些通用信息,如命名法、生物或分子类型,还列出了PubMed中关于该变体的引用,并提供了所有引用文章的直接链接(图1B)。 在中间一列中,您将找到关于变体分类的更多信息。具体来说,您可以找到小等位基因计数或MAF(图1C)。MAF是等位基因在群体中出现的频率。在第三列中,你会发现人类基因组变异协会(HGVS)的名称(图1D),根据不同的命名来识别你正在研究的基因。 解释小等位基因计数 让我们回到遗传学101课程。编码非功能性蛋白的等位基因在人群中并不常见,仅仅是因为它们没有益处,或者是致病的(让我们想想达尔文)。因此,它们在基因库中的存在非常低,我们不认为MAF很高。你可以这样想:你认识多少天生金发的人?比遗传疾病患者多,对吧? 例如,如果一个等位基因发生在MAF为10%的人群中,这意味着相当多的人携带这个等位基因,这是非常不可能导致疾病的。 然而,即使是在看马夫的时候,我们也必须小心。你必须知道你正在寻找的表型的遗传模式。记住,每个特征都有两个等位基因,除了我们的等位基因(性染色体)。 表现型是什么意思? 常染色体显性模式:该变异局限于常染色体,一个等位基因就足以引起疾病。这种类型的疾病通常出现在每一代人身上,例如亨廷顿氏舞蹈病,1型神经纤维瘤病。 常染色体隐性遗传:该变异存在于常染色体中,需要两个致病等位基因才能表现出该疾病。这意味着这种疾病可能会“跳”几代人。囊性纤维化,白化病。 一种x -连接或y -连接模式:变异存在于一个异体中。x染色体疾病可能同时影响男性和女性,但Y染色体疾病只会影响男性,因为女性不携带Y染色体! 我们不要忘记,如果疾病遵循隐性遗传模式,致病等位基因可能隐藏在具有健康表型的人群中。由于只携带一个等位基因不会导致疾病,这样的等位基因可以“躲避自然选择”,因此,它的MAF可能比我们预期的要高。 我们还应该记住,某些致病等位基因在某些条件下可能是有益的。令人困惑的,对吧?例如,对于引起镰状细胞贫血的变种来说,杂合是非常有用的,在疟疾流行的地方。因此,在这些地方,镰状细胞相关等位基因的MAF可能更高。 所以,你必须知道你在寻找什么,才能学会如何准确地阅读MAF,并从中得出结论! 如图1C所示,这种特殊的变异也有临床意义,这一点将我们引向另一个重要的数据库,它对于分类变异至关重要:ClinVar。 ClinVar 同样来自NCBI的ClinVar可以自由获取,它显示了基因型和表型之间的关系,并提供了支持证据。在ClinVar中,变异与可能的表型和临床意义有关。临床意义包括:良性、可能良性、VUS(未知意义变异)、可能致病性和致病性。 每一种分类都由提交者注册,通过自动检查和手工管理,审查和验证每一种提交。 ClinVar使用一个星型系统来分类评审级别,支持将提交的变体的临床意义断言为评审状态(图2A)。 由专家组策划的变体,或实践指南中包含的变体,分别获得3星和4星。对接受这种状态审查的变量进行了大量的研究,因此对其进行了更确定的分类,因此更可靠(表1)。 如何解释ClinVar分类 你可能会发现只有一颗星的分类——这并不一定意味着它们是错的。这只是意味着这种变异和临床意义之间的特殊联系并没有被多次提及。 例如,图2中显示的变体只有一颗星,但它可能仍然具有致病性。BRCA2基因中的这种变异确实具有致病性,因为它使整个蛋白质变得无用。这种基因的突变会导致对各种癌症的易感性,比如乳腺癌。这种突变,尤其是葡萄牙人的始祖突变。这意味着这个种群的一个或多个祖先是这种突变的携带者,它在葡萄牙种群中频率很高。 在ClinVar中,您可以很容易地看到您的转录本和变体的命名,以及提交的文件有多少颗星(图2A)。而且,当你往下看的时候,你会看到任何与你的变体相关的条件,以及一个到MedGen和OMIM的直接链接来了解更多关于这些的信息(图2B)。MedGen和OMIM是包含遗传紊乱信息的数据库,它们是了解更多遗传模式、表型特征和与特定疾病更常见的突变的奇妙资源。 向下滚动到页面底部,您会发现最重要的信息——“断言和证据细节”表(图3A)。本表格包含三个主要类别:临床断言、摘要证据和支持证据,由提交人完成。它包含了提交者用来选择特定临床意义的所有信息,它会让你更深入地了解你的变体。浏览ClinVar是非常简单的,但是如果你想要更多的指导,那么看看这个教程! 我建议您检查dbSNP和ClinVar,并与它们一起工作。点击每一个超链接——这是学习这些数据库的最好方法! 有额外的资源来帮助你变体的分类,如:人类基因突变数据库(HGMD®),数据库为一个特定的基因和/或条件和计算机预测工具。有时,您可能会检查所有可用的资源,滚动每个数据库,使用所有的预测工具,但仍然不能100%确定您的结果。在这些情况下,你可能需要进行功能性研究来确定你的变异是否真的具有临床意义。 同样有用的是,我们知道有很多网站都是为了分享关于变体的信息。你分享你在你的变体上发现的信息,以及你正在研究的疾病,在全球的某个地方,有人和你分享他们关于相同变体的信息。你知道人们常说:三个臭皮匠,顶个诸葛亮。看看哪个数据库最适合您的研究! 而且,当涉及到理解我们的基因组时,如果我们分享我们的信息,我们将更快地到达那里! 分类变量是一项艰巨的工作,但总得有人去做!我希望你现在感到更开明,也许不再害怕这项艰巨的工作。请记住,有许多人、资源和数据库随时准备提供帮助。在解开人类基因组之谜的过程中,你并不孤单。 你呢?你用什么资源来理解基因组? 参考文献 Cyrklaff,M。,桑切斯,c.p.。克里安,N。Bisseye C。Simpore,J。Frischknecht F。, &兰泽尔,M.(2011)。血红蛋白S和C干扰恶性疟原虫感染红细胞肌动蛋白重构。科学,334(6060),1283 - 1286。 克里斯多福,。表象,L。病房,M。, & Holmes, J. B.(2014)。短基因变异数据库(dbSNP)。 它,m . J。,李,j。M。, Riley, g.r。张成泽,W。,鲁宾斯坦。, Church, d。, & Maglott, D. R.(2013)。ClinVar:序列变异与人类表型关系的公共档案。核酸研究,42(D1), D980-D985。