在《科学报告》最近发表的一篇文章中,研究人员应用高斯混合模型(GMM)统计方法,通过全基因组测序(WGS)数据确定结核分枝杆菌混合菌株感染(MSI)样本中的耐药基因型。
研究数据可以帮助结核病 (TB) 患者进行诊断和耐药性 (DR) 绘图,以控制感染。
结核分枝杆菌是结核病的病原体,有四个谱系(L1-L4),每个谱系都有几个具有不同传染性和致病潜力的菌株。
临床研究报告称,一些结核病患者携带多种结核分枝杆菌菌株,导致宿主内出现 MSI。
同一宿主内存在药物敏感菌株和耐药菌株会导致多重耐药性 (MDR-TB),从而阻碍一线结核病治疗利福平 (RR-TB) 和异烟肼 (HR-TB) 控制感染),也有助于耐药菌株的传播。
然而,研究几乎没有在结核分枝杆菌的 MSI 样本中发现耐药菌株。
本研究分析了 50,723株结核分枝杆菌分离株,其中 WGS 和药物敏感性试验 (DST) 数据已公开。
这些样本采集自 64 个国家,表现出 ≥99% 的全基因组覆盖率和 30 倍或更高的测序读取深度。此外,这些样本涵盖了所有主要结核分枝杆菌谱系,L1、L2、L3和L4的比例分别为9.1%、27.6%、11.8%和48.3%。
TB-Profiler 软件最初检测到这些样本中的 MSI 并推断出基因型耐药性,包括每个样本中支持的亚谱系的读取覆盖率。
值得注意的是,它使用不同的信息突变列表进行基因型分析。接下来,研究人员为每个样本构建了 GMM 并评估其性能。GMM 帮助检测所有结核分枝杆菌亚谱系的混合基因读数和 MSI 。
性能测量包括均方误差 (MSE) 以及耐药性分析与 TB-Profiler 预测相比的准确性。
此外,他们还使用来自马拉维临床结核分枝杆菌菌株的 48 个样本的 WGS 数据来评估细菌脱氧核糖核酸 (DNA) 样本人工混合物的 GSS 性能。
结果显示,结核分枝杆菌谱系 2.2.1 在世界卫生组织 (WHO) 评估的 6 个区域中的东南亚、西太平洋、非洲和欧洲这 4 个区域中最为流行。
TB-Profiler 软件预测很大比例的结核分枝杆菌分离株对异烟肼和利福平具有耐药性;因此,这些都是耐多药结核病。此外,在大多数情况下,基因型耐药性预测是一致的。
此外,研究人员指出,L4 菌株和 L4.3.3 亚系在全球范围内最为流行。东地中海地区的基因型耐药性最高,主要是由于 L3 菌株。
结核分枝杆菌MSI 可提供异质耐药性信息,从而降低结核病治疗的有效性。TB-Profiler 软件预测了 531/48,679 个样本(即 1% 的样本)中的 MSI。Quant-TB 软件确认了 TB-Profiler 识别的大多数 MSI。
虽然谱系 4结核分枝杆菌菌株与 MSI 相关最多,但 La1.1、L2.2 和山羊分枝杆菌也表现出一些参与。L4 和 L2 结合起来会导致 MSI,反映了采样的混杂效应。
此外,GMM 方法揭示了较少传播谱系(例如结核分枝杆菌谱系 7)的参与减少,可能是因为它们的测序率相对较低。
GMM 模型和 TB-Profiler 在具有显性菌株的样本中获得了较低的 MSE,表明具有良好的预测能力。
由于两种方法的总体 MSE 值始终较低,因此它们的性能良好。值得注意的是,Quant-TB 获得了比其他方法更高的总体 MSE 值。
结核分枝杆菌培养和菌落取样技术以及生物信息学分析(之前使用)低估了结核分枝杆菌样本中的 MSI 程度。
相反,痰或肺组织的直接全基因组测序可以更好、更准确地反映结核病患者体内结核分枝杆菌的多样性。这些方法还表明,结核病感染比以前想象的要复杂得多。
在当前的研究中,将WGS数据与GMM方法相结合,一种基于非培养的耐药性分析方法有效地预测了已知DR和混合比例的DNA样本中不同菌株的相对丰度。
GMM 模型预测了较小混合比例(即 0.05 至 0.50 之间的比例)的高度准确的耐药性,总体 MSE 为 0.012。相反,TB-Profiler 和 Quant-TB 的 MSE 值稍低 (0.009) 和稍高 (0.013)。
总体而言,GMM 数据可以为结核病病例的临床决策提供富有洞察力的信息,帮助诊断并优化个性化治疗。最重要的是,基于全基因组测序的结核病诊断可以帮助避免无效的药物使用。
通过使用结核分枝杆菌系统发育树结构对 GMM 方法进行进一步改进,甚至可以将该方法的优势扩展到其他 MTBC 成员,例如牛分枝杆菌和山羊分枝杆菌等。