基因组的遗传变异导致复杂的疾病和农业特征,但理解它们仍然具有挑战性。尽管全基因组关联研究(GWAS)提供了生物学见解,但识别致病变异仍然很困难。
实验验证既耗时又昂贵,强调需要精确、可扩展的计算机方法来预测整个基因组中遗传变异的影响。
使用大型蛋白质序列数据库的无监督型预训练在提取有关蛋白质的复杂信息和学习编码区域的变异效应方面已显示出有效性。
在本研究中,研究人员提出了一种基于无监督DNA语言模型的全基因组变异影响预测策略,该策略在拟南芥中取得了前沿性能,拟南芥是植物生物学的模式生物,也是洞察人类疾病的来源。
为了预训练基于卷积神经网络的语言模型,研究人员使用了拟南芥和七个相关芸苔目物种的未比对基因组,并使用 AraGWAS 目录作为参考。该方法用于根据遗传背景预测隐藏的核苷酸。
科学家们对参考基因组中超过 100 个碱基对 (bp) 窗口的 GPN 核苷酸上下文嵌入(512 维)进行了平均。他们使用统一流形逼近和投影(UMAP)来展示它们,以衡量模型对基因组组织的理解程度。
使用平均嵌入作为特征构建逻辑回归分类器,以衡量 GPN 区分基因组区域的能力。在给定上下文的情况下,每个基因组位置都被单独屏蔽,模型输出在核苷酸上的分布也是如此。
生成的序列徽标可以在加州大学圣克鲁斯分校 (UCSC) 基因组浏览器中查看,以便更轻松地使用这些预期的分布。
GPN 分数是针对 1.0 Mb 区域内的 SNP 的计算机诱变计算的,并对不同类型的结果进行平均。随后,研究人员检查了来自 1001 基因组计划天然种质的超过 1000 万个单核苷酸多态性 (SNP),以估计 GPN 预测拟南芥遗传变异功能影响的能力。
提供的代码仅根据其脱氧核糖核酸序列来训练每个给定物种的 GPN 模型,从而允许对整个基因组的变异效应进行无监督估计。研究人员分析了基因组水平得分分布尾部不常见与常见遗传变异的富集情况,以评估发现潜在功能变异的能力。
GPN 模型在没有监督的情况下进行训练,有效地学习了拟南芥的基因结构和 DNA 模式,拟南芥是一种与几个农业相关物种密切相关的植物生物学模型生物,可用于深入了解人类疾病。
该方法优于 phastCons 和 phyloP 等现有保护方法,该方法基于通过全基因组测序 (WGS) 比对的18 个相关芸苔目物种。GPN 使用的 DNA 序列的内部表示可以区分基因组区域,例如非翻译区 (UTR)、内含子和编码序列,其置信度可以帮助发现调控语法,例如结合转录因子的基序。
GPN 对编码序列(CDS,96%)的准确性最高,对非编码核糖核酸(ncRNA,51%)(最不常见的类别)的准确性最低。该模型可以识别基因间、内含子、CDS、UTR 和 ncRNA 基因组区域。
模型的预测置信度与位点的预期功能相关,并且起始密码子和终止密码子基序通常可以准确预测。
使用替代等位基因和参考等位基因之间的对数似然比,GPN 可以确定基因组中每个 SNP 的致病性或功能评分。基于 GPN 分数最低百分位的变异类型分类通常与先前接受的有害性观点一致。
在权重降低 0.0 和 0.1 的模型中,8% 和 9% 的重复变异分别排在错义变异的第一个十分位之前。假定的功能性 SNP(定义为 GPN 分数的最低 0.1%)在不常见的变异中丰富了 5.5 倍。
GPN 的优点是,如果周围环境不同,则可以为彼此之间存在强连锁不平衡 (LD) 的遗传变异分配显着不同的分数。
GPN-LD 技术有效地将全基因组关联研究命中与非命中区分开,GPN 连锁不平衡得分最低 1% 的单核苷酸多态性在 GWAS 命中中的富集程度是最高 99.0 的单核苷酸多态性的 10 倍GPN 连锁不平衡值的百分比。
令人惊讶的是,使用中间权重进行重复训练的模型表现最好。当评估整个变异集(包括与其他芸苔目不对应的位置)时,GPN-LD 技术产生了明显更高的优势比值。
根据研究结果,全基因组变异预测(GPN)技术仅根据基因组序列可靠地预测全基因组变异效应。它适用于所有物种,可用于完善 GWAS 精细绘图和多基因风险评分。
由于 GPN 是根据 DNA 序列进行训练的,因此它可用于缺乏全面功能基因组学数据的未充分研究的非模型物种。该模型从基因组中相似背景下的联合核苷酸分布中学习,而不是从全基因组比对中学习,这可能会导致更差的非编码质量。
围绕剪接点的 GPN 预测可能有助于识别剪接因子结合位点。未来的研究可以评估根据家庭或年龄降低体重重复的影响。