1.本公开总体上涉及生物信息处理,并且具体地,涉及用于检测实体瘤微小残留病灶的方法、计算设备和存储介质。
背景技术:2.实体瘤微小残留病灶(minimal residual disease,mrd)的概念来源于血液病,是指治疗后残留在体内的少量癌细胞,残留的癌细胞数量可能很少,不会引起任何体征或症状,甚至无法通过传统方法(例如,在显微镜下观察细胞和/或追踪血液中异常的血清蛋白)所检测到。mrd阳性检测结果意味着检测到残留(剩余)病灶,阴性结果表示未检测到残留病灶。发现微小残留病灶可能预示治疗不是完全有效或治疗是不完全的。治疗后可能会出现微小的残留病灶是因为并非所有的癌细胞都对治疗有反应,或者因为癌细胞对所使用的药物产生了耐药性。目前已有多个不同癌种和分期的实体瘤研究数据证实,肿瘤患者术后mrd与复发风险存在相关,医生可以使用mrd检测结果来评估治疗的有效性,以及预测哪些患者有复发的风险,以便尽早开始治疗。医生也可以使用mrd检测结果来评估治疗效果如何,以便确认是否需要更改治疗方案从而实现疾病的缓解。由此可见,mrd的准确检测具有重要的意义。
3.迄今为止,影像学检查被认为是评价癌症治疗效果和复发监控的金标准,但是影像学对追踪微小残留病灶(mrd)不能准确及时反映,并且通过形态学改变评价疗效具有滞后的特点,不能在早期反映肿瘤治疗效果,并且不能及时的提示癌症复发,只有复发病灶达到影像学检测标准时才可检查到复发病灶。即使是接受了标准根治性治疗的局限性肿瘤患者经临床评估为无瘤状态,但仍有部分患者在短期或几年之内因为分子残留病灶的存在而存在复发风险。
4.综上,传统的利用影像学检测微小残留病灶的方案不能准确并且及时检测出患者的低频率的mrd。
技术实现要素:5.本公开提供一种用于检测实体瘤微小残留病灶的方法、计算设备和存储介质,能够准确并且及时检测出患者的低频率的mrd。
6.根据本公开的第一方面,提供了一种检测实体瘤微小残留病灶的方法。该方法包括:获取关于待测样本的目标区域的多重pcr二代测序序列与参考基因组序列的比对结果信息;基于比对结果信息,确定突变位点的信息;在所确定的突变位点中,确定当前突变位点是否满足预定条件,预定条件包括:当前突变位点的测序深度大于预定深度阈值;当前突变位点位于正链的支持读长数量与当前突变位点位于负链的支持读长数量的比值小于预定链偏好阈值;当前突变位点的变异丰度大于预定假阳性变异类型集合中包括同一突变位点碱基组所对应的丰度阈值;响应于确定当前突变位点满足预定条件,保留当前突变位点;以及基于所保留的突变位点,确定关于微小残留病灶(mrd)的阳性位点。
7.根据本发明的第二方面,还提供了一种计算设备,该设备包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令当由至少一个处理单元执行时,使得计算设备执行本公开的第一方面的方法。
8.根据本公开的第三方面,还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。
9.在一些实施例中,用于检测实体瘤微小残留病灶的方法还包括:响应于确定当前突变位点不满足预定条件,过滤掉当前突变位点。
10.在一些实施例中,预定假阳性变异类型集合包括多个关于碱基组的假阳性变异类型,每一个碱基组至少包括:突变位点的变异碱基、突变位点之前的前一碱基和突变位点之后的后一碱基,每一个碱基组关联有一个对应的丰度阈值。
11.在一些实施例中,用于检测实体瘤微小残留病灶的方法还包括:确定同一突变位点是否出现多种变异类型;响应于确定同一突变位点出现多种变异类型,分别计算多种变异类型的突变频率;确定当前变异类型的突变频率与多种变异类型中除当前变异类型之外的其他各变异类型的突变频率的比值是否均大于预定比值阈值;以及响应于确定当前变异类型的突变频率与其他各变异类型的突变频率的比值均大于预定比值阈值,将与当前变异类型所对应的突变类型作为同一突变位点的对应突变类型,并且过滤掉其他各变异类型;以及响应于确定当前变异类型的突变频率与其他各变异类型的突变频率的比值均未大于预定比值阈值,将同一突变位点出现的多种变异类型均过滤掉。
12.在一些实施例中,用于检测实体瘤微小残留病灶的方法还包括:使用关于mrd的阴性样本对关于mrd的配对阳性测试样本进行稀释,以便配对阳性测试样本的阳性变异位点被稀释为多个稀释梯度;针对多个稀释梯度中的每一个稀释梯度,获取关于碱基组的假阳性变异类型,以便针对多个稀释梯度确定多个关于碱基组的假阳性变异类型,碱基组至少包括:位于突变位点的突变碱基、突变位点之前的前一碱基和突变位点之后的后一碱基;以及基于多个关于碱基组的假阳性变异类型,生成预定假阳性变异类型集合。
13.在一些实施例中,用于检测实体瘤微小残留病灶的方法还包括:针对每一个关于碱基组的假阳性变异类型生成多个假阳性突变位点,以便确定假阳性突变位点的分布统计频率区间;以及基于所确定的分布统计频率区间,确定与每一个碱基组假阳性变异类型中的突变位点相关联的丰度阈值。
14.在一些实施例中,在所确定的突变位点中,确定当前突变位点是否满足预定条件包括:在所确定的突变位点中,确定当前突变位点是否满足预定条件包括:在每一个变异位点的多个支持读长中,确定当前支持读长的双末端中的任一末端与变异位点的距离是否小于或者等于预定距离阈值;响应于确定当前支持读长的双末端中的任一末端与变异位点的距离小于或者等于预定距离阈值,过滤掉当前支持读长;响应于确定当前支持读长的双末端中的任一末端与变异位点的距离均大于预定距离阈值,保留当前支持读长;以及针对所保留的每一个支持读长的变异位点,确定当前突变位点是否满足预定条件。
15.在一些实施例中,关于待测样本的目标区域的多重pcr二代测序序列是经由以下各项而获得的:针对待测对象的历史基因组测序序列进行筛选,以便确定目标区域,以用于
进行引物设计;以及基于所设计引物,针对待测对象的静脉血样本进行目标区域的多重pcr扩增之后再进行二代测序,以便生成关于待测样本的目标区域的多重pcr二代测序序列,所述二代测序的测序深度大于或者等于100000x。
16.提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
17.图1示出了根据本公开的实施例的用于检测实体瘤微小残留病灶的方法的系统的示意图。
18.图2示出了根据本公开的实施例的用于检测实体瘤微小残留病灶的方法的流程图。
19.图3示出了根据本公开的实施例的用于过滤同一突变位点的突变类型的方法的流程图。
20.图4示出了根据本公开的实施例的用于过滤突变位点的支持读长的方法的示意图。
21.图5示出了根据本公开的实施例的用于确定当前突变位点是否满足预定条件的方法的流程图。
22.图6示出了根据本公开的实施例的用于确定丰度阈值的方法的流程图。
23.图7示意性示出了根据本公开的实施例的用于指示各个碱基组假阳性变异类型的假阳性突变位点的离散分布的箱形图。
24.图8示出了根据本公开的实施例的用于检测实体瘤微小残留病灶的方法的流程图。
25.图9示意性示出了适于用来实现本公开实施例的电子设备的框图。
26.在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
27.下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
28.在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
29.如前文提及,传统的基于影像学对追踪微小残留病灶(mrd)的方案不能准确及时反映mrd检测结果,并且通过形态学改变评价疗效具有滞后的特点,不能在早期反映mrd检测结果,并且不能及时的提示癌症复发风险,只有复发病灶达到影像学检测标准时才可检查到复发病灶。因此,传统的利用影像学检测微小残留病灶的方案不能准确并且及时检测
出患者的低频率的mrd。
30.为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于检测实体瘤微小残留病灶的方案。在该方案中,通过基于关于待测样本的目标区域的多重pcr二代测序序列与参考基因组序列的比对结果信息,确定突变位点的信息;以及在突变位点中,将测序深度大于预定深度阈值的突变位点进行保留,本公开可以针对待测样本(例如,血液样本)中存在的含量极低的肿瘤来源的异常分子进行检测。另外,本公开通过将突变正链的支持读长数量与突变负链的支持读长数量的比值小于预定链偏好阈值、以及检测变异丰度大于假阳性变异类型集合的对应丰度阈值的突变位点进行保留,以用于确定关于mrd的阳性位点,本公开能够进行数据验证,使得检测结果具有较高的特异性和灵敏性。因而,本公开能够准确并且及时检测出患者的低频率的mrd。进而,本公开能够为患者提供复发监测、预后预测和疗效评估,从而使患者得到真正的获益。
31.图1示出了根据本公开的实施例的用于检测实体瘤微小残留病灶的方法的系统100的示意图。如图1所示,系统100例如包括计算设备110、测序设备130、生信服务器140和网络150。计算设备110可以通过网络150以有线或者无线的方式与测序设备130、生信服务器140进行数据交互。
32.关于测序设备130,其例如用于针对关于待测样本进行目标区域的多重pcr二代测序序列;以及将所生成的目标区域的多重pcr二代测序序列发送给计算设备110。在一些实施例中,生信服务器140将测试样本的mrd测序序列与参考基因组序列发送至计算设备110。
33.关于计算设备110,其例如用于检测实体瘤微小残留病灶。具体而言,计算设备110可以获取关于待测样本的目标区域的多重pcr二代测序序列与参考基因组序列的比对结果信息;确定突变位点的信息;以及确定当前突变位点是否满足关于预定测序深度、预定链偏好阈值、丰度阈值的预定条件。计算设备110还可以在确定当前突变位点满足预定条件时,保留当前突变位点;以及基于所保留的突变位点,确定关于微小残留病灶(mrd)的阳性位点。
34.在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如gpu、fpga和asic等的专用处理单元以及诸如cpu的通用处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包括:比对结果信息获取单元112、突变位点信息确定单元114、预定条件满足与否确定单元116、突变位点保留单元118、mrd阳性位点确定单元120。上述比对结果信息获取单元112、突变位点信息确定单元114、预定条件满足与否确定单元116、突变位点保留单元118、mrd阳性位点确定单元120可以配置在一个或者多个计算设备110上。
35.关于比对结果信息获取单元112,其用于获取关于待测样本的目标区域的多重pcr二代测序序列与参考基因组序列的比对结果信息。
36.关于突变位点信息确定单元114,其用于基于比对结果信息,确定突变位点的信息。
37.关于预定条件满足与否确定单元116,其用于在所确定的突变位点中,确定当前突变位点是否满足预定条件,预定条件包括:当前突变位点的测序深度大于预定深度阈值;当前突变位点位于正链的支持读长数量与当前突变位点位于负链的支持读长数量的比值小于预定链偏好阈值;当前突变位点的变异丰度大于预定假阳性变异类型集合中包括同一突
变位点碱基组所对应的丰度阈值。
38.关于突变位点保留单元118,其用于如果确定当前突变位点满足预定条件,保留当前突变位点。
39.关于mrd阳性位点确定单元120,其用于基于所保留的突变位点,确定关于微小残留病灶(mrd)的阳性位点。
40.以下将结合图2描述根据本公开的实施例的用于检测实体瘤微小残留病灶的方法。图2示出了根据本公开的实施例的用于检测实体瘤微小残留病灶的方法200的流程图。应当理解,方法200例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
41.在步骤202处,计算设备110获取关于待测样本的目标区域的多重pcr二代测序序列与参考基因组序列的比对结果信息。
42.关于待测样本,其例如为待测对象的待测血液样本。例如是静脉血样本。
43.关于待测样本的目标区域的多重pcr二代测序序列,其例如经由以下方法而获得的:针对待测对象的历史基因组测序序列进行筛选,以便确定目标区域(即,涵盖特定体细胞突变的特定区域),以用于进行引物设计(例如,筛选得到特定体细胞突变,然后针对特定体细胞突变进行引物设计);以及基于所设计引物,针对待测对象的静脉血样本进行目标区域的多重pcr扩增之后再进行二代测序,以便生成关于待测样本的目标区域的多重pcr二代测序序列,上述二代测序的测序深度大于或者等于100000x。上述历史基因组测序序列,其例如是患者前期所进行的基因组测序(包括:全基因组测序、全外显子测序、panel测序)序列。上述特定体细胞突变例如是与mrd相关的几十个或者几百个阳性突变位点、特定癌种的用药靶点、和/或特定癌种的耐药靶点。测序深度(sequencing depth)是指测序得到的碱基总量(bp)与目标区域大小的比值。本公开所采用的超高深度测序例如是测序深度大于或者等于“100000x”的超高深度测序。通过采用超高深度测序可以弥补早期癌种患者因接受了标准根治性治疗经临床评估为无瘤状态后再复发的患者,或者经过治疗后的患者肿瘤来源的变异分子含量低的不足的问题,有利于获得足够的体细胞变异数据。
44.例如,计算设备110获取经由关于待测样本的目标区域的多重pcr二代测序而获得的例如以bcl2文件(base call)文件的形式存储的碱基检出数据;将碱基检出数据(例如,bcl2文件)转换至序列数据(即fastq文件,fastq文件中的每个条目例如包含: 序列标识符、 序列、分隔符、读取碱基的质量值);然后,计算设备110过滤掉接头、低质量碱基、未测出的碱基(以 n 表示)后比对到参考基因组上,例如,经由bwa(burrows-wheeler)比对,以便获取关于待测样本的目标区域的多重聚合酶链反应(pcr)二代测序序列与参考基因组序列的比对结果信息。
45.在一些实施例中,在过滤低质量碱基时。针对所有与测序质量相关的参数都被计算设备110提取出来并保存,比如插入片段大小和测序错误率。在比对环节,读长的分布和靶向测序区域都被计数和记录,比对的质量参数保留在bam文件中以用于后续突变位点的识别。
46.在步骤204处,计算设备110基于比对结果信息,确定突变位点的信息。
47.例如,计算设备110利用软件lianti的pileup文件进行snv识别。 pileup文件是指
通过bam文件每个位置重叠的read对比对结果进行的总结,因而,pileup文件可用于判断各个位点突变。
48.在步骤206处,计算设备110在所确定的突变位点中,确定当前突变位点是否满足预定条件,预定条件包括:当前突变位点的测序深度大于预定深度阈值;当前突变位点位于正链的支持读长数量与当前突变位点位于负链的支持读长数量的比值小于预定链偏好阈值;当前突变位点的变异丰度大于预定假阳性变异类型集合中包括同一突变位点碱基组所对应的丰度阈值。
49.在一些实施例中,确定当前突变位点是否满足预定条件的方法还包括用于过滤同一突变位点的突变类型的步骤:例如,计算设备110确定同一突变位点是否出现多种变异类型;如果确定同一突变位点出现多种变异类型,分别计算多种变异类型的突变频率;确定当前变异类型的突变频率与多种变异类型中除当前变异类型之外的其他各变异类型的突变频率的比值是否均大于预定比值阈值;以及如果确定当前变异类型的突变频率与其他各变异类型的突变频率的比值均大于预定比值阈值,将与当前变异类型所对应的突变类型作为同一突变位点的突变类型,并且过滤掉其他各变异类型;如果确定当前变异类型的突变频率与其他各变异类型的突变频率的比值均未大于预定比值阈值,将同一突变位点出现的多种变异类型均过滤掉。应当理解,对于同一待测样本,在同一个突变位点发生两种不同的突变类型的可能性较低,如果在同一个突变位点发生多种不同的突变类型,如果该多种不同的突变类型的突变频率比较接近,则在该同一个突变位点所发生的多种不同突变类型通常是因为测序原因导致的,此时,需要将同一突变位点出现的多种变异类型均过滤掉。如果当前突变类型的突变频率最高,并且该最高突变频率与其他各变异类型的突变频率的比值均大于预定比值阈值,则将同一当前突变位点出现多种变异类型中对应突变类型频率最高的变异类型所对应的突变确定为实际的突变位点,并且过滤掉其他各变异类型。藉此,本公开可以过滤掉因测序原因导致的假阳性突变位点。下文将结合图3说明用于过滤同一突变位点的突变类型的方法300,在此,不再赘述。
50.关于预定深度阈值,其例如而不限于为100000x 。应当理解,微小残留病灶为低频率的,因此,当测序深度超过预定深度阈值时,才可能准确地检测低频率的mrd。因此,有必要针对测序深度小于或者等于预定深度阈值的突变位点进行过滤。
51.关于预定链偏好阈值,其例如为3,即指示:突变位点位于正链的支持读长数量与突变位点位于负链的支持读长数量的比值为3,或者指示:突变位点位于负链的支持读长数量与突变位点位于正链的支持读长数量的比值为3。在一些实施例中,预定链偏好阈值例如为4或者5。应当理解,如果是阳性变异位点,其突变负链与正链的偏差不会太大,如果突变负链与正链的偏差较大,通常是因为聚合酶链反应(pcr)扩增等测序原因而导致的,因此,需要将测序原因而导致的突变负链与正链(或者突变正链与负链)的偏差较大的突变位点过滤掉。
52.关于预定假阳性变异类型集合,其例如包括多个关于碱基组的假阳性变异类型。碱基组的假阳性变异类型集合例如而不限于包括192种碱基组的假阳性变异类型。每一个碱基组例如而不限于是包括3个碱基的碱基组。每一个碱基组例如至少包括:突变位点的变异碱基、突变位点之前的前一碱基和突变位点之后的后一碱基。碱基组的假阳性变异类型集合中的每一个碱基组关联有一个对应的丰度阈值。在一些实施例中,每一个碱基组例如
是包括4个或者更多碱基的碱基组。下文将结合图6说明确定丰度阈值的方法600,在此,不再赘述。
53.在步骤208处,如果计算设备110确定当前突变位点满足预定条件,保留当前突变位点。如果计算设备110确定当前突变位点不满足预定条件,在步骤212处,过滤掉当前突变位点。通过采用上述手段,本公开可以针对变异位点数据进行验证,过滤掉假阳性位点。
54.例如,如果当前突变位点(a》c)的变异丰度为0.0005,当前突变位点的前一碱基为a,后一碱基为t。预定假阳性变异类型集合中包括同一突变位点三碱基aat的对应的丰度阈值例如为0.00013。则当前突变位点(a》c)的变异丰度大于包括同一突变位点三碱基aat的对应的丰度阈值为0.00013,则计算设备110保留当前突变位点(a》c)。如果当前突变位点(a》c)的变异丰度为0.0001,例如,当前突变位点的前一碱基为c,后一碱基为t。预定假阳性变异类型集合中包括同一突变位点三碱基cat的对应的丰度阈值例如为0.00011。则当前突变位点(a》c)的变异丰度小于包括同一突变位点三碱基cat的对应的丰度阈值0.00011,则计算设备110过滤掉当前突变位点(a》c)。
55.在步骤210处,计算设备110基于所保留的突变位点,确定关于微小残留病灶(mrd)的阳性位点。
56.在上述方案中,通过基于关于待测样本的目标区域的多重pcr二代测序序列与参考基因组序列的比对结果信息,确定突变位点的信息;以及在突变位点中,将测序深度大于预定深度阈值的突变位点进行保留,本公开可以针对待测样本(例如,血液样本)中存在的含量极低的肿瘤来源的异常分子进行检测。另外,本公开通过将突变正链的支持读长数量与突变负链的支持读长数量的比值小于预定链偏好阈值、以及检测变异丰度大于假阳性变异类型集合的对应丰度阈值的突变位点进行保留,以用于确定关于mrd的阳性位点,本公开能够进行数据验证,使得检测结果具有较高的特异性和灵敏性。因而,本公开能够准确并且及时检测出患者的低频率的mrd。进而,本公开能够为患者提供复发监测、预后预测和疗效评估,从而使患者得到真正的获益。
57.为了验证本公开效果,选择了horizon discovery标准品hd780 (包含3浓度梯度hd778、hd779 和 hd776 ),其中hd776为无变异的野生型样本。以下表1示例性示出了标准品hd778的位点相关信息;表2示例性示出了标准品hd779的位点相关信息;表3 示例性示出了horizon discovery标准品中经启源鉴定的6个额外位点(野生型也存在)。
58.表1表2
表3例如,本公开选择突变频率为1%的horizon discovery标准品样本、突变频率为0.1%的horizon discovery标准品样本和野生型(wide type,wt)的horizon discovery标准品样本。然后,针对每个样本在1个run内重复三次检测实验。表4 示例性示出了三种样本中关于mrd的阳性位点的检出情况。其中,“√”代表关于mrd的阳性位点被检出,
“×”
代表关于mrd的阴性位点未检出,
“※”
代表关于mrd的阳性位点未检出。上述批内实验结果表明,98%的关于mrd的阳性位点可以稳定检出,野生型样本位点无检出,重复验证结果一致。由此可见,本公开能够准确并且及时检测出患者的低频率的mrd。
59.表4
再例如,本公开选择突变频率为1%的horizon discovery标准品样本、突变频率为0.1%的horizon discovery标准品样本和野生型(wide type,wt)的horizon discovery标准品样本。然后,针对每个样本在3个run内重复三次本公开检测实验。根据三种样本中关于mrd的阳性位点的检出情况可知,上述批间实验结果表明,97%的关于mrd的阳性位点可以稳定检出,野生型样本位点无检出,重复验证结果一致。由此可见,本公开能够准确并且及时检测出患者的低频率的mrd。可见,本公开可以高特异性、高灵敏性、可重复的、并且准确的检测出患者的低丰度肿瘤来源的异常分子,从而实现对mrd阳性突变位点的精准检测。另外,本公开通过经过标准品和临床样本的验证,可检出低至0.01%频率的变异,远低于目前已有的panel检测下限。
60.以下将结合图3描述根据本公开的实施例的用于过滤同一突变位点的突变类型的方法300。图3示出了根据本公开的实施例的用于过滤同一突变位点的突变类型的方法300的流程图。应当理解,方法300例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法300还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
61.在步骤302处,计算设备110确定同一突变位点是否出现多种变异类型。
62.在步骤304处,如果计算设备110确定同一突变位点出现多种变异类型,分别计算多种变异类型的突变频率。如果确定同一突变位点未出现多种变异类型,在步骤302处,继续等待。
63.在步骤306处,计算设备110确定当前变异类型的突变频率与多种变异类型中除当前变异类型之外的其他各变异类型的突变频率的比值是否均大于预定比值阈值。例如,计算设备110比较同一突变位点未出现多种变异类型的突变频率,以便按照突变频率由大到小进行排序。关于预定比值阈值,其例如而不限于为2。
64.在步骤308处,如果计算设备110确定当前变异类型的突变频率与其他各变异类型的突变频率的比值均大于预定比值阈值,将与当前变异类型所对应的突变类型作为同一突变位点的对应突变类型,并且过滤掉其他各变异类型。例如,如果计算设备110确定排序第一(即突变频率最高)的当前变异类型的突变频率与其他各变异类型的突变频率的比值均大于2,将排序第一(即突变频率最高)的当前变异类型作为同一突变位点的对应突变类型,同时,过滤掉排序第二以及之后的其他突变类型。
65.在步骤310处,如果计算设备110确定当前变异类型的突变频率与其他各变异类型的突变频率的比值均未大于预定比值阈值,将同一突变位点出现的多种变异类型均过滤掉。
66.通过采用上述手段,本公开能够准确并便捷地针对同一突变位点的多种突变类型进行验证,以便过滤掉同一突变位点的假阳性突变类型的噪音。
67.以下将结合图4和图5描述根据本公开的实施例的用于确定当前突变位点是否满足预定条件的方法。图4示出了根据本公开的实施例的用于过滤突变位点的支持读长的方法400的示意图。图5示出了根据本公开的实施例的用于确定当前突变位点是否满足预定条件的方法500的流程图。应当理解,方法500例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法500还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
68.在步骤502处,计算设备110在每一个变异位点的多个支持读长中,确定当前支持读长的双末端中的任一末端与变异位点的距离是否小于或者等于预定距离阈值。
69.关于预定距离阈值,其例如是利用软件lianti的pileup文件识别突变位点时,通过设置参数
“‑ꢀ
t 10”的方式而配置的。
“‑ꢀ
t 10”例如指示与变异位点距离为10个碱基的距离。
70.例如,如图4所示,计算设备110获取关于每一变异位点的多个支持读长,例如关于某个变异位点410,计算设备110获得例如100个支持读长。计算设备110确认100个支持读长中每个支持读长的双末端与变异位点410的距离是否小于或者等于预定距离阈值。
71.在步骤504处,如果计算设备110确定当前支持读长的双末端中的任一末端与变异位点的距离小于或者等于预定距离阈值,过滤掉当前支持读长。例如,如果计算设备110确定第一支持读长412的前端、第m支持读长414的前端、第n支持读长416的后端与变异位点410的距离分别小于或者等于预定距离阈值(例如而不限于为10个碱基的距离),则计算设备110过滤掉第一支持读长412、第m支持读长414和第n支持读长416。
72.在步骤506处,如果计算设备110确定当前支持读长的双末端中的任一末端与变异位点的距离均大于预定距离阈值,保留当前支持读长。例如,如果计算设备110确定除了第一支持读长412、第m支持读长414和第n支持读长416之外的其他支持读长的双端与变异位点410的距离均大于预定距离阈值,则计算设备110保留其他支持读长。
73.在步骤508处,计算设备110针对所保留的每一个支持读长的变异位点,确定当前突变位点是否满足预定条件。例如,计算设备110针对所保留的、除了第一支持读长412、第m支持读长414和第n支持读长416之外的其他支持读长的变异位点,进一步确定其测序深度是否大于预定深度阈值;变位点位于正链的支持读长数量与负链的支持读长数量的比值是否小于预定链偏好阈值;其变异丰度是否大于关于碱基组的假阳性变异类型集合中包括同一突变位点碱基组的对应丰度阈值。
74.在上述方案中,本公开能显著提高所识别的突变位点的灵敏度,并且可以降低检测结果的假阳性。
75.以下将结合图6和图7描述根据本公开的实施例的用于确定丰度阈值的方法。图6示出了根据本公开的实施例的用于确定丰度阈值的方法600的流程图。图7示意性示出了根据本公开的实施例的用于指示各个碱基组假阳性变异类型的假阳性突变位点的离散分布的箱形图。应当理解,方法600例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法600还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
76.在步骤602处,计算设备110使用关于mrd的阴性样本对关于mrd的配对阳性测试样本进行稀释,以便配对阳性测试样本的阳性变异位点被稀释为多个稀释梯度。
77.例如,选取3对关于待测样本的目标区域的多重pcr二代测序序列的配对阳性测试样本。然后,使用阴性样本针对配对阳性测试样本进行稀释,将阳性变异位点被依次稀释至稀释梯度0.1%、0.05%、0.02%、0.01%、0.005%。
78.如下表5示例性示出了利用阴性样本针对配对阳性测试样本进行稀释的方法。
79.表5
在步骤604处,计算设备110针对多个稀释梯度中的每一个稀释梯度,获取关于碱基组的假阳性变异类型,以便针对多个稀释梯度确定多个关于碱基组的假阳性变异类型,碱基组至少包括:位于突变位点的突变碱基、突变位点之前的前一碱基和突变位点之后的后一碱基。
80.针对多个稀释梯度中的每一个稀释梯度,针对除阳性变异位点之外的阴性位点出现的假阳性变异位点的数据进行统计。例如,对于单个碱基假阳性变异有3种可能,4种碱基合计12种。每种碱基组假阳性变异类型包括突变位点处的变异碱基、以及上下游各1碱基,即以3碱基为单位(中间碱基为变异碱基)进行统计,合计共有192种碱基组假阳性变异类型。
81.在步骤606处,计算设备110基于多个关于碱基组的假阳性变异类型,生成预定假阳性变异类型集合。例如,基于192种碱基组假阳性变异类型,生成预定假阳性变异类型集合。如下表6示意性示出了192种碱基组假阳性变异类型中的部分碱基组假阳性变异类型。
82.在步骤608处,计算设备110针对每一个关于碱基组的假阳性变异类型生成多个假阳性突变位点,以便确定假阳性突变位点的分布统计频率区间。例如,计算设备110针对每一个关于碱基组的假阳性变异类型(或称“碱基组假阳性变异类型”),使得对应的假阳性突变位点出现例如2000次以上,以便确定分布统计频率区间。
83.如图7所示,横坐标指示192种碱基组假阳性变异类型中的20种包含突变碱基的碱基组。纵坐标指示突变等位基因频率(即, variation allele frequency)。以关于碱基组aat的假阳性变异类型a(a》g)t为例,标记712指示上限值、标记714指示中位数、标记716指示下限值、标记718指示上四分位数、标记720指示下四分位数。标记722指示丰度阈值。该丰度阈值例如是包括假阳性变异位点(a》g)的三碱基aat的对应丰度阈值0.00013。通过采用箱形图的方式指示各个碱基组假阳性变异类型的假阳性突变位点的离散分布,本公开可以快速获得碱基组假阳性变异类型的突变位点的分布,同时又不会占据太多空间。
84.在步骤610处,计算设备110基于所确定的分布统计频率区间,确定与每一个碱基组假阳性变异类型中的突变位点相关联的丰度阈值。例如,针对每一个碱基组假阳性变异类型的对应丰度阈值进行计算,使得每种假阳性位点中99%的假阳性位点的落入分布统计频率区间(即假阳性位点的特异性为99%),即99%的假阳性位点的变异丰度低于丰度阈值。在一些实施例中,针对每一个碱基组假阳性变异类型,使得对应箱形图的假阳性突变位点分布范围内的第1百分位数为与每一个碱基组假阳性变异类型中的突变位点相关联的丰度阈值。如下表6示意性示出了192种碱基组假阳性变异类型中的部分碱基组的突变位点相关
联的丰度阈值。如表6所示,例如,三碱基aat中间碱基a变异为碱基c的这一假阳性变异类型的变异位点所对应相关联的丰度阈值为0.00013。如果当前突变位点(a》c)的变异丰度为0.0003,当前突变位点的前一碱基为a,后一碱基为t。关于碱基组的预定假阳性变异类型集合中包括同一突变位点三碱基aat的对应丰度阈值为0.00013。如果计算设备110确定当前突变位点(a》c)的变异丰度大于包括同一突变位点三碱基aat的对应丰度阈值0.00013,则计算设备110保留当前突变位点(a》c)。
85.表6如下表7示例性示出了3例阴性样本检出的假阳性位点的相关数据。如表7所示的假阳性位点的特异性(specificity)为(1-5/462)*100%=98.9%。
86.表7通过采用上述手段,本公开能够提高确定假阳性位点的准确性与特异性。
87.以下将结合图8描述根据本公开的实施例的用于检测实体瘤微小残留病灶的方法。图8示出了根据本公开的实施例的用于检测实体瘤微小残留病灶的方法800的流程图。应当理解,方法800例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计
算设备110处执行。应当理解,方法800还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
88.在步骤802处,计算设备110获取关于待测样本的目标区域的多重pcr二代测序序列与参考基因组序列的比对结果信息。
89.在步骤804处,计算设备110基于比对结果信息,确定突变位点的信息。
90.在步骤806处,计算设备110确定同一当前突变位点是否出现多种变异类型,并且当前变异类型的突变频率与多种变异类型中除当前变异类型之外的其他各变异类型的突变频率的比值是否均大于预定比值阈值(该预定比值阈值例如而不限于是2)。如果计算设备110确定同一当前突变位点出现多种变异类型,并且当前变异类型的突变频率与其他变异类型的突变频率的比值未均大于预定比值阈值,跳转至步骤820处,将同一突变位点出现的多种变异类型均过滤掉。即,过滤掉当前突变位点出现的所有变异类型。
91.在步骤808处,如果计算设备110确定同一当前突变位点是否出现多种变异类型,并且当前变异类型的突变频率与其他各变异类型的突变频率的比值均大于预定比值阈值,将与当前变异类型所对应的突变类型作为所述同一突变位点的对应突变类型,并且过滤掉其他各变异类型。
92.在步骤810处,确定当前突变位点的测序深度是否大于预定深度阈值(该预定深度阈值例如是100000x)。如果计算设备110确定当前突变位点的测序深度小于或者等于预定深度阈值,跳转至步骤822处,过滤掉当前突变位点。
93.在步骤812处,如果计算设备110确定当前突变位点的测序深度大于预定深度阈值,确定当前突变位点位于正链的支持读长数量与当前突变位点位于负链的支持读长数量的比值是否小于预定链偏好阈值(该预定链偏好阈值例如而不限于是突变正链的支持读长数量与突变负链的支持读长数量的比值为3,或者突变负链的支持读长数量与突变正链的支持读长数量的比值为3)。如果计算设备110确定当前突变位点位于正链的支持读长数量与当前突变位点位于负链的支持读长数量的比值是否大于或者等于预定链偏好阈值,跳转至步骤822处,过滤掉当前突变位点。
94.在步骤814处,如果计算设备110确定当前突变位点位于正链的支持读长数量与当前突变位点位于负链的支持读长数量的比值小于预定链偏好阈值,确定当前突变位点的变异丰度是否大于预定假阳性变异类型集合中包括同一突变位点碱基组所对应的丰度阈值(该丰度阈值例如而不限于预定假阳性变异类型集合中包括同一突变位点碱基组的对应假阳性突变类型的检测的下限值)。如果计算设备110确定当前突变位点的变异丰度是否小于或者等于预定假阳性变异类型集合中包括同一突变位点碱基组所对应的丰度阈值,跳转至步骤822处,过滤掉当前突变位点。
95.在步骤816处,如果计算设备110确定当前突变位点的变异丰度大于预定假阳性变异类型集合中包括同一突变位点碱基组所对应的丰度阈值,保留当前突变位点。
96.在步骤818处,计算设备110基于所保留的突变位点,确定关于微小残留病灶(mrd)的阳性位点。
97.通过采用上述方案,本公开能够可及时,准确的检测出患者的低频率mrd,为患者提供复发监测、预后预测和疗效评估,从而使患者得到真正的获益。。
98.图9示意性示出了适于用来实现本公开实施例的电子设备900的框图。设备900可
以是用于实现执行图2、图3、图5、图6和图8所示的方法200、300、500、600和800的设备。如图所示,设备900包括中央处理单元(cpu)901,其可以根据存储在只读存储器(rom)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序指令,来执行各种适当的动作和处理。在ram 903中,还可存储设备900操作所需的各种程序和数据。cpu 901、rom 902以及ram903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
99.设备900中的多个部件连接至i/o接口905,包括:输入单元906、输出单元907、存储单元908,处理单元901执行上文所描述的各个方法和处理,例如执行方法200、300、500、600和800。例如,在一些实施例中,方法200、300、500、600和800可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由cpu 901执行时,可以执行上文描述的方法200、300、500、600和800的一个或多个操作。备选地,在其他实施例中,cpu 901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200、300、500、600和800的一个或多个动作。
100.需要进一步说明的是,本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
101.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
102.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
103.用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机
或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
104.这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
105.这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
106.也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
107.附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
108.以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
109.以上该仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。