1.本发明属于生物信息学领域,具体涉及一种三代测序数据的比对方法,尤其涉及一种使用第三代测序技术获得转录组测序数据的比对方法。
背景技术:2.全长转录组测序是使用第三代测序技术获得mrna全长序列的技术。三代测序相对于二代测序具有高读长的优势,其读长可以完整覆盖绝大部分转录本自身长度,得到完整的转录本测序信息,避免了二代测序短读长拼接造成的错误,因此,在转录组测序中具有明显优势。
3.测序序列比对到参考基因组是进行下游生物信息分析的基本过程与前提,比对准确率对下游分析的影响甚大。基于二代mrna测序数据的比对算法经历了充分的阶段发展与实践检验,目前的主流软件有tophat2、hisat2、star等。基于三代mrna测序数据的比对算法发展时间较短,相对二代而言仍处于初级阶段,目前的主流软件有gmap、minimap2、last、desalt等。各个算法在准确性上各有优劣之处,二代与三代算法也受数据限制存在明显差异。二代算法通常在简单映射区域有更高的测序精度和比对准确率,而三代算法在复杂映射区域有更高的比对准确率。因此,如果能同时利用多种算法,并从各算法的结果中提取最优结果,就可以提高比对准确率。
技术实现要素:4.本发明的目的是建立一种比对结果更为准确的三代全长转录组测序长序列的比对方法。
5.本发明首先保护一种三代测序数据的比对方法,可包括如下步骤:
6.(1)用三代测序数据的比对软件将三代测序数据比对到参考基因组,获得比对结果;
7.(2)将三代测序数据转换为二代测序数据的比对软件可以使用的短序列格式,同时对短序列信息进行编码,得到相对位置信息;
8.(3)用二代测序数据的比对软件将步骤(2)获得的短序列比对到参考基因组,获得比对结果,比对结果包括比对位置信息;
9.(4)根据步骤(3)得到的比对位置信息和步骤(2)得到的相对位置信息,将序列还原为三代测序数据的比对结果;
10.(5)将步骤(1)和步骤(4)得到的比对位置信息进行交叉验证分析;
11.(6)将步骤(5)获得的交叉验证结果通过加权投票的方法整合,得到最终的比对结果。
12.上述比对方法中,所述三代测序数据可为三代全长转录组测序长序列。
13.上述比对方法中,所述步骤(1)中,三代测序数据的比对软件可为软件gmap、软件minimap2、软件last和软件desalt中的至少一种。
14.上述比对方法中,所述步骤(2)中,所述将三代测序数据转换为二代测序数据的比对软件可以使用的短序列格式可为采用指定或随机步长滑窗的方法将三代测序数据的长序列转换为指定或随机长度的若干短序列。
15.上述比对方法中,所述步骤(2)和步骤(3)中,二代测序数据的比对软件可为软件hisat2、软件star和软件tophat2中的至少一种。
16.上述比对方法中,所述步骤(4)中,根据步骤(3)得到的比对位置信息和步骤(2)得到的相对位置信息将序列还原为三代测序数据的比对结果可为:根据步骤(3)得到的比对位置信息和步骤(2)得到的相对位置信息整合为相对位置—比对位置信息对,之后根据相对位置信息将短序列重新恢复为三代测序数据,并得到三代测序数据比对位置信息。具体的,根据步骤(2)得到的相对位置信息将步骤(3)的比对结果中的比对位置信息整合为“相对位置编码——比对位置编码”信息对,之后根据相对位置编码信息将若干个短序列重新恢复为长序列,并得到长序列比对位置信息,即完全恢复为等同于长序列映射结果的二代映射结果。
17.上述比对方法中,所述步骤(5)中,交叉验证分析可包括三代测序数据上相同位置多个算法比对结果的相互验证、多个算法比对位置临近序列相似度的相互验证和转录组序列连续性及结构性特征验证。
18.进行步骤(1)-(4),能在保留全部信息的情况下将三代测序数据转换为符合二代比对算法软件要求的数据格式,并在比对完成后将结果还原为三代数据比对格式。目的为使三代测序数据能够使用多种比对算法。
19.进行步骤(5)和(6),能将多个不同比对算法得到的结果进行相互验证,进而得到最优结果。
20.上述任一所述的比对方法能使测序数据既利用多个不同比对算法的优势,又避免了因各个算法自身缺陷导致的错误。
21.上述任一所述的比对方法在比对三代测序数据中的应用也属于本发明的保护范围。
22.实验证明,分别采用本发明提供的方法、软件gmap、软件minimap2、软件hisat2和软件star将喉癌pacbio全长转录本比对到参考基因组,获得比对准确率。结果表明,与其它软件相比,本发明提供的方法对使用第三代测序技术获得全长转录组测序数据(即三代全长转录组测序长序列,简称长序列)的比对准确率显著提高。本发明具有重要的应用价值。
附图说明
23.图1为本发明建立的三代测序数据的比对方法的流程示意图。
具体实施方式
24.下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
25.下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊
说明,均可从商业途径得到。
26.下述实施例中,长序列比对结果格式支持标准bam\sam\gff\gtf\bed格式。
27.实施例1、三代测序数据的比对方法的建立
28.为了使第三代测序技术获得的全长转录组测序数据(即三代全长转录组测序长序列,简称长序列)的比对结果更为准确,本发明的发明人经过大量实验,建立了长序列的比对方法。具体步骤如下:
29.1、用现有的三代测序数据的比对软件(简称三代比对软件)将长序列比对到参考基因组,获得比对结果。
30.2、将长序列转换为二代比对软件可以使用的短序列格式,同时对短序列信息进行编码,得到相对位置信息。
31.具体的,采用指定或随机步长滑窗的方法将三代测序数据的长序列转换为指定或随机长度的若干短序列,保存截取的短序列,并对其相对位置坐标进行编码处理。
32.3、用现有的二代测序数据的比对软件(简称二代比对软件)将短序列比对到参考基因组,获得比对结果。
33.4、根据步骤3得到的多个短序列比对结果中的比对位置信息和步骤2得到的相对位置编码信息,将序列还原为三代长序列比对结果。
34.具体的,根据步骤2得到的相对位置信息将步骤3的比对结果中的比对位置信息整合为“相对位置编码——比对位置编码”信息对,之后根据相对位置编码信息将若干个短序列重新恢复为长序列,并得到长序列比对位置信息,即完全恢复为等同于长序列映射结果的二代映射结果。
35.5、将步骤1和步骤4得到的多个比对结果的比对位置信息进行交叉验证分析。交叉验证分析包括长序列上相同位置多个算法比对结果的相互验证、多个算法比对位置临近序列相似度的相互验证和转录组序列连续性及结构性特征验证。
36.6、将步骤5的交叉验证结果通过加权投票的方法整合,得到最终优化结果。
37.进行步骤1-4,能在保留全部信息的情况下将三代测序数据转换为符合二代比对算法软件要求的数据格式,并在比对完成后将结果还原为三代数据比对格式。目的为使三代测序数据能够使用多种比对算法。
38.进行步骤5和6,能将多个不同比对算法得到的结果进行相互验证,进而得到最优结果。
39.上述方法能使测序数据既利用多个不同比对算法的优势,又避免了因各个算法自身缺陷导致的错误。
40.本发明建立的三代测序数据的比对方法的流程示意图见图1。
41.实施例2、比较实施例1建立的比对方法和现有比对软件对使用第三代测序技术获得全长转录组测序数据(即三代全长转录组测序长序列,简称长序列)的比对准确率
42.a、实施例1建立的比对方法对长序列的比对
43.一、用三代比对软件将长序列比对到参考基因组
44.1、使用软件gmap将长序列比对到参考基因组,获得比对结果。
45.(1)构建索引
46.gmap_build
–
d index_name ref.genome.fa
47.(2)运行软件
48.gmap
–
d index_name
–
t 8sample.fa》sample.sam
49.2、使用软件minimap2将长序列比对到参考基因组,获得比对结果。
50.minimap2-ax splice
–
uf-secondary=no-c5-md ref.genome.fa sample.fa》sample.sam
51.3、使用软件last将长序列比对到参考基因组,获得比对结果。
52.(1)构建索引
53.(2)运行软件
54.4、使用软件desalt将长序列比对到参考基因组,获得比对结果。
55.(1)构建索引
56.desalt index ref.genome.fa index_name
57.(2)运行软件
58.desalt aln index_name sample.fa
–
o sample.sam
59.二、将长序列转换为二代比对软件可以使用的短序列格式,同时对短序列信息进行编码,得到相对位置编码信息。
60.具体的,首先指定或随机确定一个长度作为滑窗步长,然后以按步长滑窗的方式从长序列上截取指定或随机长度的短序列,直至窗口从长序列起始滑动到末端,保存截取的短序列,并对其相对位置坐标进行编码处理。
61.三、用二代比对软件将短序列比对到参考基因组
62.1、使用软件hisat2将步骤二得到的短序列比对到参考基因组,获得比对结果。
63.(1)构建索引
64.hisat2-build ref.genome.fa index_name
65.(2)运行软件
66.hisat2-f-x index_name-u sample.fa-s sample.sam
67.2、使用软件star将步骤二得到的短序列比对到参考基因组,获得比对结果。
68.(1)构建索引
69.star
‑‑
runmode genomegenerate
‑‑
genomedir index_name
‑‑
genomefastafiles ref.genome.fa
70.(2)运行软件
71.star
‑‑
genomedir index_name
‑‑
readfilesin sample.fa》sample.sam
72.3、使用软件tophat2将步骤二得到的短序列比对到参考基因组,获得比对结果。
73.(1)构建索引
74.bowtie2-build ref.genome.fa index_name
75.(2)运行软件
76.tophat2 index_name sample.fa》sample.sam
77.四、根据步骤三得到的多个短序列比对结果中的比对位置信息和步骤二得到的相对位置编码信息,将序列还原为三代长序列比对结果。
78.具体的,根据步骤二得到的相对位置编码信息将步骤三的比对结果中的比对位置信息整合为“相对位置编码——比对位置编码”信息对,之后根据相对位置编码信息将若干
个短序列重新恢复为长序列,并得到长序列比对位置信息,即完全恢复为等同于长序列映射结果的二代映射结果。
79.五、将步骤一和步骤四得到的多个比对结果的比对位置信息进行交叉验证分析,得到最终优化结果。
80.交叉验证分析得到最终优化结果需要考虑以下三个方面:
81.1、长序列上相同位置多个算法比对结果的相互验证。通过对长序列每个碱基的比对位置结果以加权投票的方法进行整合。
82.2、多个算法比对位置临近序列相似度的相互验证。通过截取各软件比对位置附近序列进行相似度比对计算获得,目的为包括但不局限于判断多重映射、判断错误映射、判断剪切连接点两端有短序列重复现象等。
83.3、转录组序列连续性及结构性特征验证。转录组测序得到的序列应符合一般转录本的特征,包括应在基因组的临近连续区间内、应符合一般转录本的结构等。根据以上特征,可对各算法得到的比对结果进行有目的验证。需要说明的是,此处的特征均为转录本概念下的一般特征,不需要额外提供具体的注释文件做参考。
84.将以上三方面的验证结果进行最终加权投票计算,得到最终优化结果。
85.步骤五提出了综合考察三方面因素进行最终验证的方法。应当明确的是,每个方面验证的具体方法以及最终的联合计算中,权重、投票、计算公式等均有灵活的调整方式,凡在本发明精神内对该方法所做的修改、替换等均在本发明的权利要求范围内。
86.步骤二及步骤四的处理是为了对该方法做进一步的描述,其中诸如编码、比对、解码等过程可由多种方法实现,不仅局限于本实施例所述方法。本发明描述了一种“长序列-编码-短序列-比对-解码-长序列”的过程,凡在本发明精神内对该过程所做的修改、替换等均在本发明的权利要求范围内。
87.当上文中的长序列具体为喉癌pacbio全长转录本时,采用上述方法获得最终优化结果,然后比对到参考基因组,获得比对准确率。结果见表1。
88.表1
89.比对方法比对准确率实施例1建立的比对方法98%软件gmap93%软件minimap295%软件hisat292%软件star91%
90.b、现有比对软件对长序列的比对
91.当长序列为喉癌pacbio全长转录本时,采用软件gmap、软件minimap2、软件hisat2和软件star分别将长序列比对到参考基因组,获得比对准确率。结果见表1。
92.上述结果表明,采用本发明实施例1建立的方法比对长序列,比对准确率显著提高。
93.以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。
总之,按本发明的原理,本技术欲包括任何变更、用途或对本发明的改进,包括脱离了本技术中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
技术特征:1.一种三代测序数据的比对方法,包括如下步骤:(1)用三代测序数据的比对软件将三代测序数据比对到参考基因组,获得比对结果;(2)将三代测序数据转换为二代测序数据的比对软件可以使用的短序列格式,同时对短序列信息进行编码,得到相对位置信息;(3)用二代测序数据的比对软件将步骤(2)获得的短序列比对到参考基因组,获得比对结果,比对结果包括比对位置信息;(4)根据步骤(3)得到的比对位置信息和步骤(2)得到的相对位置信息,将序列还原为三代测序数据的比对结果;(5)将步骤(1)和步骤(4)得到的比对位置信息进行交叉验证分析;(6)将步骤(5)获得的交叉验证结果通过加权投票的方法整合,得到最终的比对结果。2.如权利要求1所述的比对方法,其特征在于:所述步骤(1)中,三代测序数据的比对软件为软件gmap、软件minimap2、软件last和软件desalt中的至少一种。3.如权利要求1所述的比对方法,其特征在于:所述步骤(2)中,所述将三代测序数据转换为二代测序数据的比对软件可以使用的短序列格式为采用指定或随机步长滑窗的方法将三代测序数据的长序列转换为指定或随机长度的若干短序列。4.如权利要求1所述的比对方法,其特征在于:所述步骤(2)和步骤(3)中,二代测序数据的比对软件为软件hisat2、软件star和软件tophat2中的至少一种。5.如权利要求1所述的比对方法,其特征在于:所述步骤(4)中,根据步骤(3)得到的比对位置信息和步骤(2)得到的相对位置信息将序列还原为三代测序数据的比对结果为:根据步骤(3)得到的比对位置信息和步骤(2)得到的相对位置信息整合为相对位置—比对位置信息对,之后根据相对位置信息将短序列重新恢复为三代测序数据,并得到三代测序数据比对位置信息。6.如权利要求1所述的比对方法,其特征在于:所述步骤(5)中,交叉验证分析包括三代测序数据上相同位置多个算法比对结果的相互验证、多个算法比对位置临近序列相似度的相互验证和转录组序列连续性及结构性特征验证。7.权利要求1至6任一所述的比对方法在比对三代测序数据中的应用。
技术总结本发明公开了一种三代测序数据的比对方法。该方法包括如下步骤:用三代比对软件将三代测序数据比对到参考基因组,获得比对结果;将三代测序数据转换为二代比对软件可以使用的短序列格式,同时对短序列信息进行编码,得到相对位置信息;用二代比对软件将短序列比对到参考基因组,获得比对结果;根据比对位置信息和相对位置信息,将序列还原为三代测序数据的比对结果;将比对位置信息进行交叉验证分析,获得的交叉验证结果通过加权投票的方法整合,得到最终的比对结果。实验证明,采用本发明提供的方法比对三代测序数据,比对准确率显著提高。本发明具有重要的应用价值。本发明具有重要的应用价值。
技术研发人员:张函槊 张成胜
受保护的技术使用者:北京基石生命科技有限公司
技术研发日:2022.03.15
技术公布日:2022/7/5