许多用于序列比对的启发式方法都是渐进式方法,这意味着它们首先比对两个最相似的序列来构建比对网格,然后迭代地将越来越不相似的序列添加到网格中,直到所有序列都包含在内。这种方法的一个缺陷是,最初选择的“最相关序列”具有很大的权重。如果对哪些序列最相关的初始估计不正确,最终比对的准确性就会受到影响。常见的渐进式启发式方法是 Clustal 和 T-Coffee。
上面讨论的两种方法(动态规划和基于启发式的方法)都不完美。一种方法缺乏真正可扩展工具的计算效率,而另一种方法可能会遗漏重要信息。由于数据库变得 柬埔寨手机数据 越来越复杂,数据分析正在成为许多流程中的瓶颈,因此对一种能够结合动态规划和启发式方法的优势,同时避免其缺陷的工具的需求很高。
解决此问题的一种方法是使用受现代计算机科学启发的技术,例如优化和索引。诸如隐马尔可夫模型之类的优化算法特别擅长对齐远程相关序列,但仍然经常比不上动态规划和启发式方法等更传统的方法。
另一方面,索引采用类似 Google 的方法,使用自然语言编程中的算法来发现生物序列数据中的简短信息模式,然后可以将其提取并索引,以便在所有分子层上快速检索。使用这种方法,无需指定预先选择的搜索窗口,因此可以避免偏差。下面列出了一个简短的案例研究,描述了使用 HYFTs TM模式在免疫球蛋白可变区中搜索稳健域,这可以实现超快速、超精确的序列比对。
案例研究:在免疫球蛋白的可变区中寻找稳健的结构域
免疫球蛋白或抗体是一种多功能的临床相关蛋白质,在疾病诊断和治疗中具有广泛的应用。包括多种癌症在内的复杂疾病越来越多地采用单克隆抗体疗法进行治疗。
开发这些疗法的关键是表征免疫球蛋白可变区的序列相似性。虽然可以使用经典动态规划或启发式方法来解决这一挑战,但前者的性能较差,后者可能会因为搜索窗口有限而导致错过结合位点。使用带有 HYFTS 模式的索引方法可以以最佳速度搜索完整序列。
PDB 中的免疫球蛋白序列被分解为 HYFTS 模式,形成快速且可搜索的序列抽象。接下来,所有序列都根据其 HYFTS 模式进行比对,其结果如下所示(图 1)。