基于NGS的染色体非整倍体检测方法、装置、介质和设备与流程

allin2023-09-02  87

基于ngs的染色体非整倍体检测方法、装置、介质和设备
技术领域
1.本发明涉及涉及生物医学技术领域,尤其涉及一种基于ngs的染色体非整倍体检测方法、装置、介质和设备。


背景技术:

2.二代测序(next-generation sequencing,ngs),是一种高通量大规模的平行测序技术,是基于pcr和基因芯片发展而来的dna测序技术。这种技术可以以较低成本一次性获取基因组上多个目标区域的基因突变和染色体结构变异信息。
3.染色体非整倍体(aneuploidy),是一种细胞内染色体数量的不平衡,约在90%的实体肿瘤中发现这一肿瘤重要特征。染色体非整倍体得分(aneuploidy score),定义为肿瘤样本发生染色体臂水平scnv的数量,其作为一种免疫生物标志物,可以提示免疫治疗疗效。
4.目前已有文献报道了基于二代测序scnv数据进行染色体非整倍体得分(aneuploidy score)计算的方法,由于存在scnv-segment检测方法及过滤标准不统一、没有经过肿瘤纯度和倍性矫正、操作步骤繁琐等缺点,从而不能对染色体非整倍体进行准确检测。


技术实现要素:

5.技术问题:本发明提供一种基于ngs的染色体非整倍体检测方法和装置,旨在提高肿瘤染色体非整倍体的检测准确性。同时,提供了相应的计算机可读存储介质和电子设备。
6.技术方案:第一方面,本发明提供一种基于ngs的染色体非整倍体检测方法,包括:接收肿瘤组织和正常组织的ngs测序数据;对所述ngs测序数据进行预处理,获得中间数据文件;利用所述中间数据文件,对性别和胚系snp进行一致性评估;利用所述中间数据文件获取待测样本基因组上覆盖深度信息及snp基因型信息;检测肿瘤样本纯度、倍性和scnv片段;根据单个肿瘤样本和准备好的泛癌队列scnv数据库,计算每个肿瘤样本染色体臂水平的scnv;基于样本染色体臂水平的scnv,计算每个肿瘤样本最终的染色体非整倍体得分。
7.进一步地,肿瘤组织和正常组织的ngs测序数据,包括全基因组测序和全外显子捕获测序。
8.进一步地,利用所述中间数据文件,对性别和胚系snp进行一致性评估包括:基于y染色体测序深度评估样本性别,对性别进行一致性评估;使用conpair软件对胚系snp进行一致性评估。
9.进一步地,利用所述中间数据文件获取待测样本基因组上覆盖深度信息及snp基因型信息包括:以所述中间数据文件作为输入,并使用的snp位点数据库,利用snp-pileup软件获
取待测样本基因组上覆盖深度信息及snp基因型信息。
10.进一步地,使用facets或sequenza软件检测肿瘤样本纯度、倍性和scnv片段。
11.进一步地,根据单个肿瘤样本和准备好的泛癌队列scnv数据库,计算每个肿瘤样本染色体臂水平的scnv包括:单个肿瘤样本和准备好的泛癌队列scnv数据库作为输入,利用gistic软件进行分析;设定阈值参数,根据所设定阈值参数判断染色体臂水平是否发生cnv。
12.进一步地,基于样本染色体臂水平的scnv,计算每个肿瘤样本最终的染色体非整倍体得分包括:计算所有22条常染色体长臂和短臂非0个数的总和。
13.第二方面,本发明提供一种基于ngs的染色体非整倍体检测装置,利用任一所述的基于ngs的染色体非整倍体检测方法对肿瘤染色体非整倍体进行检测,包括:数据接收模块,其被配置为接收肿瘤组织和正常组织的ngs测序数据;数据预处理模块,其被配置为对所述ngs测序数据进行预处理,获得中间数据文件;一致性评估模块,其被配置为利用所述中间数据文件,对性别和胚系snp进行一致性评估;信息获取模块,其被配置为利用所述中间数据文件获取待测样本基因组上覆盖深度信息及snp基因型信息;scnv检测模块,其被配置为检测肿瘤样本纯度、倍性和scnv片段;scnv计算模块,其被配置为根据单个肿瘤样本和准备好的泛癌队列scnv数据库,计算每个肿瘤样本染色体臂水平的scnv;得分计算模块,其被配置为基于样本染色体臂水平的scnv,计算每个肿瘤样本最终的染色体非整倍体得分。
14.第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,所述计算机指令能够被处理器执行以实现任一所述的基于ngs的染色体非整倍体检测方法。
15.第四方面,本发明提供一种电子设备,包括:所述的计算机可读存储介质,以及处理器,所述处理器被配置为能够执行计算机可存储介质中的计算机指令。
16.英文简称说明:(1)ngs:next generation,sequencing,第二代测序技术;(2)aneuploidy:染色体非整倍体;(3)scnv:somatic copy number variants,体细胞拷贝数变异;(4)snp:single nucleotide polymorphism,单核苷酸多态性。
17.本发明与现有技术相比,在计算scnv时同时考虑了肿瘤样本的纯度和倍性状态,结合泛癌数据库scnv结果,最终计算的aneuploidy score具有更高准确性和鲁棒性,从而可以更加准确地肿瘤染色体非整倍体进行检测。
附图说明
18.图1为本发明中基于ngs的染色体非整倍体检测方法的流程图;图2为本发明的实施例中肺癌复发组和非复发组aneuploidy score组间差异箱线图;图3为本发明的实施例中,cutoff=18时,肺癌无复发生存时间(rfs)生存差异图;图4为本发明的实施例中,cutoff=18时,肺癌hr值森林图;图5为本发明中基于ngs的染色体非整倍体检测装置的框图。
具体实施方式
19.下面结合实施例和说明书附图对本发明作进一步的说明。
20.图1示出了本发明的实施例中基于ngs的染色体非整倍体检测方法的流程图。结合图1所示,该方法包括步骤s110~s170,具体如下:步骤s110:接收肿瘤组织和正常组织(或血细胞)的ngs测序数据。具体地,如图2中在本发明的实施例中,可以基于二代测序中的全基因组测序(wgs)或全外显子捕获测序(wes)获取测序数据。测序数据可以为双端测序或者单端测序,本发明实施例中优选双端测序,测序策略pe150 (paired-end)。测序深度:wgs测序优选深度》30x;wes测序优选深度》100x。
21.步骤s120:对ngs测序数据进行预处理,获得中间数据文件。
22.具体地,将肿瘤组织和正常组织测序原始数据进行质控,主要包括使用trimmomatic软件去除测序接头序列和低质量序列,然后使用bwa软件将过滤后的clean reads比对到人参考基因组hg19,得到原始bam文件。原始bam还需经过以下步骤,获取最终的bam文件:1)samtools软件排序;2)picard去除重复序列;3)gatk4软件局部重比对;4)gatk4软件碱基质量矫正以及生成索引文件。经过上述操作,得到中间数据文件,是一个bam文件。
23.步骤s130:利用中间数据文件,对性别和胚系snp进行一致性评估。在本发明的实施例中,通过y染色体测序深度进行性别一致性评估。将步骤s120得到的中间数据文件作为输入,使用samtools软件判定y染色体测序深度来进行性别一致性的评估。
24.进一步地,使用conpair软件对胚系snp进行一致性评估。通过conpair软件中~7000 snp位点,完成胚系snp的一致性评估。通过对性别和胚系snp进行一致性评估,从而提高检测的准确性。
25.步骤s140:利用中间数据文件获取待测样本基因组上覆盖深度信息及snp基因型信息。
26.利用中间数据文件和dbsnp138数据库,使用snp-pileup软件获取样本基因组上覆盖深度信息及snp基因型信息。
27.步骤s150:检测肿瘤样本纯度、倍性和scnv片段。具体的,在本发明的实施例中,使用facets或sequenza软件,基于覆盖深度信息及snp基因型信息,进行肿瘤样本纯度、倍性及scnv片段检测。优选地,使用facets软件进行scnv检测,主要参数:ndepth(wgs=10;wes=35); snp.nbhd(wgs=500;wes=250);cval(wgs=600;wes=250);min.nhet(wgs=15;wes=15)。facets采用二元基因组分割方法,用来分析等位基因特异性拷贝数变异,并同时计算样本
纯度、倍性、loh、cnv的克隆结构信息,分析速度快,结果准确。
28.步骤s160:根据单个肿瘤样本和准备好的泛癌队列scnv数据库,计算每个肿瘤样本染色体臂水平的scnv。
29.基于单个肿瘤样本scnv结果和准备好的泛癌队列scnv数据库,使用gistic 2.0软件进行分析。软件主要参数如表1所示。其中,泛癌队列scnv数据库,为使用上述方法,且符合上述质控条件的,基于泛癌样本获得的scnv结果文件构造的数据库,用于队列样本染色体臂水平cnv分析。
30.表1 gistic 2.0软件使用参数-rx-ta-td-js-qvt-cap-broad-brlen-maxseg-conf10.10.140.251.510.885000.95在该步骤中,判断染色体臂水平是否发生cnv阈值参数为0.8,即每条染色体臂上发生cnv的区间大于整条染色体臂长度的80%。
31.步骤s170:基于样本染色体臂水平的scnv,计算每个肿瘤样本最终的染色体非整倍体得分。基于样本染色体臂水平的scnv,计算每个肿瘤样本发生拷贝数变化的染色体臂数目的总和,为该样本最终的染色体非整倍体得分(aneuploidy score)。在计算时,计算所有22条常染色体长臂和短臂非0(0表示没有发生cnv)个数的总和。由于chr13、chr14、chr15、chr21、chr22的短臂太短,不纳入计算。故aneuploidy score的取值范围为0-39。根据aneuploidy score,可以评估肿瘤样本染色体非整倍体状态,aneuploidy score越高,说明肿瘤样本染色体越不稳定。
32.为了验证本发明提出的方法的实用性,按照上述方法步骤,对搜集到的81对早期肺癌组织和正常组织样本进行了wes测序(平均测序深度,肿瘤样本257x,正常组织样本219x),质控去除2对(性别或胚系一致性不符),最终对79对样本计算了aneuploidy score。如图2所示,结合患者临床复发状态,复发组aneuploidy score显著高于非复发组(wilcoxon rank-sum test,p=0.012)。进一步,如图3和4所示,结合患者rfs时间,使用r软件进行单因素cox回归分析,并绘制kaplan-meier生存曲线和森林图。结果显示,在以aneuploidy score中位值(cutoff=18)为阈值时,aneuploidy score低组复发预后显著优于aneuploidy score高组(p=0.0383,hr=2.3693)。该结果进一步明确了本发明所提出的方法的准确性以及aneuploidy score在早期肺癌中的复发提示作用。
33.另一方面,本发明提供一种基于ngs的染色体非整倍体检测装置,该装置可以利用所提出的任一基于ngs的染色体非整倍体检测装置,结合图5所示,包括:数据接收模块210、数据预处理模块220、一致性评估模块230、信息获取模块240、scnv检测模块250、scnv计算模块260和得分计算模块270。其中,数据接收模块被配置为接收肿瘤组织和正常组织的ngs测序数据;数据预处理模块被配置为对所述ngs测序数据进行预处理,获得中间数据文件;一致性评估模块被配置为利用所述中间数据文件,对性别和胚系snp进行一致性评估;信息获取模块被配置为利用所述中间数据文件获取待测样本基因组上覆盖深度信息及snp基因型信息;scnv检测模块被配置为检测肿瘤样本纯度、倍性和scnv片段;scnv计算模块被配置为根据单个肿瘤样本和准备好的泛癌队列scnv数据库,计算每个肿瘤样本染色体臂水平的scnv;得分计算模块被配置为基于样本染色体臂水平的scnv,计算每个肿瘤样本最终的染色体非整倍体得分。
34.对于各个模块实现相应的功能的方式,与上述方法的说明对应,此处就不再做重复说明。
35.第三方面,本发明提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开实施例所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
36.第四方面,本发明提供一种电子设备,所公开的实施例中,该电子设备包括上述的任一计算机可读存储介质以及处理器,本公开实施例所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。当存储于计算机可读存储介质中的计算机程序被处理器执行时,可实现上述各方法的流程步骤。
37.上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

技术特征:
1.一种基于ngs的染色体非整倍体检测方法,其特征在于,包括:接收肿瘤组织和正常组织的ngs测序数据;对所述ngs测序数据进行预处理,获得中间数据文件;利用所述中间数据文件,对性别和胚系snp进行一致性评估;利用所述中间数据文件获取待测样本基因组上覆盖深度信息及snp基因型信息;检测肿瘤样本纯度、倍性和scnv片段;根据单个肿瘤样本和准备好的泛癌队列scnv数据库,计算每个肿瘤样本染色体臂水平的scnv;基于样本染色体臂水平的scnv,计算每个肿瘤样本最终的染色体非整倍体得分。2.根据权利要求1所述的方法,其特征在于,肿瘤组织和正常组织的ngs测序数据,包括全基因组测序和全外显子捕获测序。3.根据权利要求1所述的方法,其特征在于,利用所述中间数据文件,对性别和胚系snp进行一致性评估包括:基于y染色体测序深度评估样本性别,对性别进行一致性评估;使用conpair软件对胚系snp进行一致性评估。4.根据权利要求1-3任一项所述的方法,其特征在于,利用所述中间数据文件获取待测样本基因组上覆盖深度信息及snp基因型信息包括:以所述中间数据文件作为输入,并使用的snp位点数据库,利用snp-pileup软件获取待测样本基因组上覆盖深度信息及snp基因型信息。5.根据权利要求4所述的方法,其特征在于,使用facets或sequenza软件检测肿瘤样本纯度、倍性和scnv片段。6.根据权利要求5所述的方法,其特征在于,根据单个肿瘤样本和准备好的泛癌队列scnv数据库,计算每个肿瘤样本染色体臂水平的scnv包括:单个肿瘤样本和准备好的泛癌队列scnv数据库作为输入,利用gistic软件进行分析;设定阈值参数,根据所设定阈值参数判断染色体臂水平是否发生cnv。7.根据权利要求6所述的方法,其特征在于,基于样本染色体臂水平的scnv,计算每个肿瘤样本最终的染色体非整倍体得分包括:计算所有22条常染色体长臂和短臂非0个数的总和。8.一种基于ngs的染色体非整倍体检测装置,利用权利要求1-7任一项所述的基于ngs的染色体非整倍体检测方法对肿瘤染色体非整倍体进行检测,其特征在于,包括:数据接收模块,其被配置为接收肿瘤组织和正常组织的ngs测序数据;数据预处理模块,其被配置为对所述ngs测序数据进行预处理,获得中间数据文件;一致性评估模块,其被配置为利用所述中间数据文件,对性别和胚系snp进行一致性评估;信息获取模块,其被配置为利用所述中间数据文件获取待测样本基因组上覆盖深度信息及snp基因型信息;scnv检测模块,其被配置为检测肿瘤样本纯度、倍性和scnv片段;scnv计算模块,其被配置为根据单个肿瘤样本和准备好的泛癌队列scnv数据库,计算每个肿瘤样本染色体臂水平的scnv;
得分计算模块,其被配置为基于样本染色体臂水平的scnv,计算每个肿瘤样本最终的染色体非整倍体得分。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令,所述计算机指令能够被处理器执行以实现权利要求1-7任一项所述的基于ngs的染色体非整倍体检测方法。10.一种电子设备,其特征在于,包括:权利要求9所述的计算机可读存储介质,以及处理器,所述处理器被配置为能够执行计算机可存储介质中的计算机指令。

技术总结
本发明公开了一种基于NGS的染色体非整倍体检测方法、装置、介质和设备,涉及生物医学技术领域。包括接收肿瘤组织和正常组织的NGS测序数据;对所述NGS测序数据进行预处理,获得中间数据文件;利用所述中间数据文件,对性别和胚系SNP进行一致性评估;利用所述中间数据文件获取待测样本基因组上覆盖深度信息及SNP基因型信息;检测肿瘤样本纯度、倍性和SCNV片段;根据单个肿瘤样本和准备好的泛癌队列SCNV数据库,计算每个肿瘤样本染色体臂水平的SCNV;基于样本染色体臂水平的SCNV,计算每个肿瘤样本最终的染色体非整倍体得分。所述装置、介质和设备均基于所述的方法。本发明提高了肿瘤染色体非整倍体检测的准确性。色体非整倍体检测的准确性。色体非整倍体检测的准确性。


技术研发人员:陶威 杨滢 陈维之 何骥 杜波
受保护的技术使用者:臻和精准医学检验实验室无锡有限公司
技术研发日:2022.05.11
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-11901.html

最新回复(0)