一种基于肿瘤转录组学特征预测转录因子靶基因的系统

allin2022-07-12  252



1.本发明涉及生物技术领域,具体地说,是一种基于肿瘤转录组学特征预测转录因子靶基因的系统。


背景技术:

2.转录因子是一种dna结合蛋白,在包括肿瘤发生在内的许多病理生理过程中发挥着关键作用。随着高通量研究技术的发展,不同病理生理条件下存在的差异表达的转录因子越来越多地被鉴定出来,而探究这些转录因子发挥的具体功能仍是棘手的问题。
3.通常认为,转录因子可以与下游靶基因启动子区的特定区域(即dna结合元件)结合,调控靶基因的转录,从而引起这些靶基因的表达变化,进一步导致细胞生物学功能的改变。因此预测转录因子的靶基因主要有两种思路,即基于转录因子基因组结合倾向性数据的分析和基于蛋白表达数据的分析。这些方法在取得了较好预测效果的同时,也存在着一些难以解决的问题。对于基于基因组结合倾向性数据的分析,其分析过程依赖于操作复杂且昂贵的chip-seq(chromatin immunoprecipitation followed by sequencing)实验的数据,这一方面导致该分析方法的使用门槛较高,另一方面也使该方法的预测效果受制于chip-seq的固有缺陷,可靠性不高。对于基于蛋白表达数据的分析,它们往往依赖于对细胞的基因表达调控网络中加入特定的扰动,并根据相应的基因表达谱改变,从功能的角度推断转录因子的靶基因,因此实验工作量较大且预测效果会受到样本量的制约。
4.中国专利文献:cn201010227078.9,申请日20100714,专利名称为:一种预测转录因子结合位点的方法。公开了一种预测转录因子结合位点的方法该方法的基本实施流程如下:步骤1、研究对象的基因组定位;步骤2、基因启动子序列的提取;步骤3、预测转录因子结合位点;步骤4、统计分析预测结果。通过该方法,能较为准确地预测出目的基因的转录因子结合位点,有效提高预测结果的真阳性率。
5.中国专利文献:cn201910922590.6,申请日2019.09.26,专利名称为:一种新型肿瘤相关转录因子zscan16及其在抑制肿瘤中的应用,zscan16基因作为膀胱癌治疗靶点的应用。该发明的优点如下:本发明揭示了zscan16在膀胱癌发展的过程中可能发挥重要的生物学作用,并且其与肿瘤的发展也密切相关。
6.上述专利文献cn201010227078.9中的一种预测转录因子结合位点的方法,通过研究对象的基因组定位;基因启动子序列的提取;预测转录因子结合位点和统计分析预测结果这四个步骤,能较为准确地预测出目的基因的转录因子结合位点,有效提高预测结果的真阳性率;而专利文献cn201910922590.6中的一种新型肿瘤相关转录因子zscan16及其在抑制肿瘤中的应用,则结果显示,zscan16是膀胱癌发生和发展的关键新的癌基因;以及体外实验结果表明,zscan16的沉默抑制了t24细胞的增殖、集落形成、细胞凋亡以及迁移和侵袭;zscan16可作为膀胱癌调控的研究靶点,可作为肿瘤的诊断,预后评估标志物,还可作为靶点开发抑制肿瘤的药物。但是关于一种创新性地使用了泛癌水平的转录组学数据,实现操作上简单且高效的转录因子靶基因预测目的,且通过引入位置权重矩阵(pwm)打分,获得
准确性较高额转录因子靶基因预测结果,进一步地降低了研究人员在使用该系统时的实验工作量和技术、经费门槛的一种基于肿瘤转录组学特征预测转录因子靶基因的系统目前则没有相关的报道。
7.综上所述,亟需一种创新性地使用了泛癌水平的转录组学数据,实现操作上简单且高效的转录因子靶基因预测目的,且通过引入位置权重矩阵(pwm)打分,获得准确性较高额转录因子靶基因预测结果,进一步地降低了研究人员在使用该系统时的实验工作量和技术、经费门槛的一种基于肿瘤转录组学特征预测转录因子靶基因的系统。


技术实现要素:

8.本发明的目的是克服现有技术的不足,提供一种创新性地使用了泛癌水平的转录组学数据,实现操作上简单且高效的转录因子靶基因预测目的,且通过引入位置权重矩阵(pwm)打分,获得准确性较高额转录因子靶基因预测结果,进一步地降低了研究人员在使用该系统时的实验工作量和技术、经费门槛的一种基于肿瘤转录组学特征预测转录因子靶基因的系统。
9.为实现上述目的,本发明采取的技术方案是:
10.一种基于肿瘤转录组学特征预测转录因子靶基因的系统,由4大模块组成:
11.泛癌范围的转录组学相关性计算模块;
12.启动子区序列获取模块;
13.位置权重矩阵打分模块;
14.转录因子靶基因筛选模块。
15.作为一种优选的技术方案,所述的泛癌范围的转录组学相关性计算模块:用于计算并确定某一给定转录因子基因与其余所有基因的转录组学相关性参数;对于给定的某一转录因子基因x,分别计算它与其余基因(y1,y2,
……
,yi)在所有癌种的转录组学数据中的皮尔森相关性系数;对于任意一对x和yi,取其在所有癌种中的皮尔森相关性系数最大值,作为该转录因子x对该基因yi的转录组学相关性参数。
16.作为一种优选的技术方案,所述的启动子区序列获取模块:根据公开数据库中的基因转录起始位点位置信息,从人类参考基因组中获取每个基因的启动子区序列。
17.作为一种优选的技术方案,所述的转录因子靶基因筛选模块:根据给定转录因子对所有基因的转录组学相关性参数和位置权重矩阵打分,结合使用者需求,划出转录组学相关性参数阈值和位置权重矩阵打分阈值,从而筛选出该转录因子的预测靶基因。
18.本发明优点在于:
19.1、创新性地使用了泛癌水平的转录组学数据,利用其中存在的广泛大量基因表达调控网络扰动,实现了操作上简单且高效的转录因子靶基因预测目的。
20.2、本系统通过引入位置权重矩阵(pwm)打分,可以获得准确性较高额转录因子靶基因预测结果。
21.3、本系统中所采用的所有数据资料理论上皆可通过开放性公共数据库获取,这进一步地降低了研究人员在使用该系统时的实验工作量和技术、经费门槛。
附图说明
22.附图1是本系统与其他转录因子靶基因预测手段的预测效果比较示意图。
23.附图2是本系统以转录因子creb1为例,使用本系统进行靶基因预测的效果评价示意图。
24.附图3为本发明系统的程序流程图。
具体实施方式
25.本发明的一种基于肿瘤转录组学特征预测转录因子靶基因的系统由4大模块组成:
26.1)泛癌范围的转录组学相关性计算模块:用于计算并确定某一给定转录因子基因与其余所有基因的转录组学相关性参数。对于给定的某一转录因子基因x,分别计算它与其余基因(y1,y2,
……
,yi)在所有癌种的转录组学数据中的皮尔森相关性系数。对于任意一对x和yi,取其在所有癌种中的皮尔森相关性系数最大值,作为该转录因子x对该基因yi的转录组学相关性参数。
27.2)启动子区序列获取模块:根据公开数据库中的基因转录起始位点位置信息,从人类参考基因组中获取每个基因的启动子区序列。
28.3)位置权重矩阵(position weight matrices,pwm)打分模块:从公开数据库中获取某个转录因子的位置权重矩阵,再使用改矩阵对所有基因的启动子区进行打分。
29.4)转录因子靶基因筛选模块:根据给定转录因子对所有基因的转录组学相关性参数和位置权重矩阵打分,结合使用者需求,划出转录组学相关性参数阈值和位置权重矩阵打分阈值,从而筛选出该转录因子的预测靶基因。
30.具体地,请参看附图1,图1是本系统(即tfotf,target finder of transcription factor)与其他转录因子靶基因预测手段(chip-seq实验、pwmscoring打分)的预测效果比较示意图。可见本系统的预测效果更优。
31.其中,图1中左边的区域图显示了三种不同的预测方法在搜索转录因子(以stat1为例)的目标基因方面的效果。横轴是这三种方法预测的前500个基因中包含的被验证基因的数量;纵轴是每个基因被检索到的文献的数量。右边的散点图反映了这三种方法预测目标基因的能力的差异。两组之间的比较采用了kolmogorov-smirnov检验。*:p《0.05;****:p《0.0001。
32.请参看附图2,图2是本系统以转录因子creb1为例,使用本系统进行靶基因预测的效果评价示意图。通过敲低creb1后检测预测靶基因的表达水平改变,验证了预测结果的准确性。
33.其中,图2中敲除转录因子creb1后,预测到的creb1靶基因(pds5b、thumpd1、cnot6、map4k3、sf3b1、ccp110、rbbp6、ddx46、dhx15、ylpm1)的表达改变;n=3个独立实验;ns:无意义;**:p《0.01;***:p《0.001;****:p《0.0001。
34.请参看附图3,图3为本发明系统的程序流程图。
35.其中,图3基于“肿瘤组织中存在基因表达谱扰动”和“转录因子往往具有特异性的结合位点”这两个前提背景,我们设计了相应的计算模块,相互配合的实现了预测给定转录因子的靶基因的目的。
36.本发明的一种基于肿瘤转录组学特征预测转录因子靶基因的系统,创新性地使用了泛癌水平的转录组学数据,利用其中存在的广泛大量基因表达调控网络扰动,实现了操作上简单且高效的转录因子靶基因预测目的;本系统通过引入位置权重矩阵(pwm)打分,可以获得准确性较高额转录因子靶基因预测结果;本系统中所采用的所有数据资料理论上皆可通过开放性公共数据库获取,这进一步地降低了研究人员在使用该系统时的实验工作量和技术、经费门槛。
37.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
转载请注明原文地址: https://www.8miu.com/read-94.html

最新回复(0)