用Python实现生信分析——序列搜索和比对工具详解-易微帮

1. 什么是序列搜索和比对工具？

序列搜索和比对工具在生物信息学中用于在大型序列数据库中搜索与查询序列相似的序列，并进行比对分析。这些工具可以帮助研究人员识别与目标序列相关的已知序列，从而推测其功能、结构和进化关系。

常见的序列搜索和比对工具包括：

BLAST（Basic Local Alignment Search Tool）：最常用的序列搜索工具，能够快速找到与查询序列相似的序列。
FASTA：另一个常用的序列搜索工具，与BLAST类似，但在算法和性能上有所不同。

2. BLAST的工作原理

BLAST 是最常用的序列搜索工具之一。其核心思想是通过将序列分割为短的片段（称为“词”或“k-mers”），并在数据库中搜索这些片段的匹配，然后扩展匹配以找到高得分的比对。BLAST的主要工作流程包括以下几个步骤：

Word Matching：BLAST将查询序列分割成长度为k的短片段（如3个核苷酸或氨基酸），并在数据库中找到这些片段的完全匹配。
Extension：在找到的匹配片段周围进行扩展，以找到更长的匹配区域。这一步确保找出完整的相似序列。
Scoring：对比对结果进行得分计算。BLAST使用打分矩阵（如PAM或BLOSUM）来评估匹配、错配、插入和删除的得分。
E-value Calculation：计算E-value（期望值），衡量比对结果的显著性。E-value越低，表示匹配越不可能是随机发生的。
Alignment：生成比对结果，并展示查询序列与数据库序列的匹配情况。

3. BLAST的常见模式

BLAST有多种模式，分别适用于不同的生物序列类型：

BLASTN：用于核酸序列（DNA或RNA）之间的比对。
BLASTP：用于蛋白质序列之间的比对。
BLASTX：用于将核酸序列翻译为蛋白质后进行比对。
TBLASTN：用于将蛋白质序列与核酸序列数据库进行比对。
TBLASTX：用于将核酸序列翻译为蛋白质后与翻译后的核酸序列进行比对。

4. Python实现：使用Biopython进行BLAST搜索

Biopython 是一个强大的Python库，支持多种生物信息学操作，包括BLAST搜索。通过Biopython，我们可以方便地访问NCBI的BLAST服务，并进行序列搜索。

4.1 案例：在NCBI数据库中搜索与给定DNA序列相似的序列

我们将使用Biopython进行一次BLASTN搜索，即在NCBI的核酸数据库（nt）中搜索与给定DNA序列相似的序列。

from Bio.Blast import NCBIWWW, NCBIXML

# 定义查询序列
query_sequence = """ 
>query
GATTACA
"""

# 在NCBI的BLAST服务中进行核酸序列的BLASTN搜索
result_handle = NCBIWWW.qblast("blastn", "nt", query_sequence)

# 解析BLAST结果
blast_records = NCBIXML.read(result_handle)

# 提取并打印BLAST结果
for alignment in blast_records.alignments:
    for hsp in alignment.hsps:
        print("****Alignment****")
        print("sequence:", alignment.title)
        print("length:", alignment.length)
        print("e-value:", hsp.expect)
        print(hsp.query[0:75] + "...")
        print(hsp.match[0:75] + "...")
        print(hsp.sbjct[0:75] + "...")

代码解释

定义查询序列：query_sequence 变量中包含了查询序列（在本例中是 GATTACA），我们希望在数据库中找到与这个序列相似的序列。
BLAST搜索：
- NCBIWWW.qblast 函数用于向NCBI的BLAST服务提交搜索请求。
- "blastn" 表示我们选择的是BLASTN模式（核酸比对），"nt" 是我们选择的数据库（核酸序列数据库）。
解析BLAST结果：
- NCBIXML.read 函数用于解析BLAST的XML格式结果，将其转换为易于操作的对象。
- 我们遍历比对结果，提取并输出每个匹配的序列信息，包括匹配序列的标题（alignment.title）、长度（alignment.length）、E-value（hsp.expect），以及比对的实际序列。

4.2 运行结果和详细分析

运行结果：运行上述代码后，典型的输出可能如下（具体结果依赖于NCBI数据库的内容）：

****Alignment****
sequence: gi|123456789|ref|NM_012345.1| Example gene Homo sapiens
length: 1100
e-value: 1e-20
GATTACA...
|||||||
GATTACA...

****Alignment****
sequence: gi|987654321|ref|NM_543210.1| Another gene Homo sapiens
length: 900
e-value: 2e-15
GATTACA...
|||||||
GATTACA...

结果分析：

Alignment：表示查询序列与数据库中序列的比对结果。每个Alignment块展示了一个数据库序列与查询序列的比对情况。
Sequence：匹配的数据库序列的信息，包括序列的ID和相关注释。通过这些信息可以追溯到具体的基因或蛋白质功能。
Length：匹配序列的长度，通常是指完整的数据库序列长度。
E-value：期望值，表示在数据库中随机匹配到相似序列的概率。E-value越低，匹配的显著性越高，通常小于0.001的值被认为是显著的。
Query/Match/Subject：分别表示查询序列（query）、匹配的序列片段（match）和数据库中的目标序列（subject）。通过这些比对信息，可以直观地看到查询序列与数据库序列之间的匹配情况。

4.3 常见应用场景

基因功能预测：
- 通过将未知序列与已知功能的序列比对，可以推测该未知序列的功能。例如，如果一个未知的基因与已知的编码蛋白序列高度相似，可以推测该基因也可能编码类似的蛋白质。
同源基因识别：
- 通过BLAST，可以在不同物种中找到同源基因，从而研究基因的进化关系。例如，可以用人类基因在小鼠基因组中进行搜索，找到同源基因。
基因组注释：
- 在新测序的基因组中，通过BLAST找到与已知基因组相似的序列，并使用这些信息进行基因注释。新发现的基因可以与数据库中的序列比对，推测其功能。

5. 扩展应用

同源基因识别：通过BLAST可以在不同物种中识别同源基因，研究基因进化。
基因功能注释：通过与已知功能的基因比对，可以推测未知基因的功能。
基因组注释：在新测序的基因组中，通过BLAST找到与已知基因组相似的序列，进行基因注释。

6. 扩展阅读和实践

（1）BLAST选项和参数：

NCBIWWW.qblast 函数支持多种参数，如选择不同的打分矩阵、调整E-value阈值、限制搜索范围等。了解并合理设置这些参数，可以提高BLAST搜索的效率和精度。

（2）本地BLAST搜索：

对于大规模或频繁的搜索任务，可以考虑下载并安装本地版的BLAST工具，从而避免网络延迟和访问限制。本地BLAST可以更快地处理大量的序列数据，并支持自定义数据库的建立。

（3）FASTA工具：

除了BLAST外，FASTA也是一个非常有用的序列比对工具，适用于不同的比对场景。研究人员可以根据具体需求选择合适的工具。

通过这次的详细讲解和代码实现，你现在应该能够理解如何使用BLAST进行序列搜索和比对。

用Python实现生信分析——序列搜索和比对工具详解