1.本发明涉及生物信息技术领域,特别涉及一种特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法及系统。
背景技术:2.特发性肺纤维化(ipf)是一种慢性,进行性,不可逆转的肺部瘢痕形成的间质性肺病。目前该病病因尚不明确,没有有效的治疗方案,且伴随着高发病率和死亡率。以往针对ipf的病理学分析都是基于传统的组织测序数据,但其只能提供组织内所有细胞的平均表达信号,并不能精细化地分析ipf肺组织内不同细胞之间的表达差异。而单细胞技术的出现为ipf的研究提供了一个更高的分辨率。通过对单细胞测序数据进行数据分析可以更深入地发掘不同细胞类型之间的表达情况。
3.将基因型映射到表型是生物学和医学中长期存在的挑战之一。解决这一问题的一个有效策略是进行转录组分析。然而,尽管我们体内的所有细胞都有几乎相同的基因类型,但任何一个细胞的转录组信息只反映了一部分基因的活性。此外,由于我们体内的许多不同类型的细胞都表达一个独特的转录组,传统的组织测序只能提供组织内所有细胞的平均表达信号。并且越来越多的证据证明,即使是在相同的细胞类型中,基因的表达也是不同的。基于此,更精确的了解单个细胞中的转录组对于阐明它们在细胞功能中的作用以及了解基因表达如何促进有益或有害状态是至关重要的。随着2009年单细胞技术的提出,这一问题得到了有效的解决。单细胞技术通过提取组织中的单个细胞并对其测序和分析,将组织和疾病研究的分辨率提升到了一个更高的层面,为组织和疾病的研究提供了一个新的维度。
4.单细胞技术目前被广泛应用到ipf研究中,且主要的研究目标为鉴定新的细胞亚型和研究药物治疗疾病的机制。如reyfman等人的研究中发现了包括呼吸道干细胞和衰老细胞在内的罕见细胞群在纤维化过程中出现,并在ipf样本中鉴定了2个独特的巨噬细胞亚群。xu等人的研究中发现在接受终末期ipf移植的患者的外植体组织中,存在表达呼吸道相关基因的非典型肺泡上皮细胞亚群。adams等人的研究发现了ipf肺内内皮细胞的变化,它们在ipf肺组织中发现了一群表达col15a1的血管内皮细胞群。在kwapiszewska等人的研究中,通过单细胞技术分析服用和未服用吡非尼酮的肺组织匀浆和肺组织纤维细胞,发现吡非尼酮对成纤维细胞和其他肺组织细胞的多条途径发挥有益作用。sheu等人的研究中通过分析服用尼达尼布患者的ipf成纤维细胞,发现了100多个异常上调的基因,这些异常基因主要涉及细胞周期途径和抑制成纤维细胞增殖等。
5.当前许多单细胞研究的目的主要集中在鉴定组织中的独特细胞亚型,而很少对某一特定细胞类型进行深入研究。
技术实现要素:6.本发明实施例提供了一种特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法及装置,以至少解决现有的单细胞数据分析任务只停留在从组织样本中鉴定细胞亚型,而很少对某一特定细胞类型进行深入研究的缺陷。
7.根据本发明的一实施例提供的一种特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,包括以下步骤:
8.步骤s10:获取人体肺组织的公开数据集,并对所述数据集进行预处理;
9.步骤s20:对预处理后的所述数据集进行数据融合并去除批次效应;
10.步骤s30:对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞;
11.步骤s40:鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因。
12.在一些实施例中,在步骤s10,获取人体肺组织的公开数据集,并对所述数据集进行预处理的步骤中,具体包括下述步骤:
13.步骤s11:从geo数据库中选取4个数据集,分别是gse136831,gse135893,gse128033和gse122960,所述4个数据集均提取了人体肺组织并且分离单细胞进行测序;
14.步骤s12:对上述每个数据集进行数据清洗,所述数据清洗包括移除没有在任何细胞中表达的基因以及移除表达基因数小于200的细胞和线粒体相关基因表达占比大于25%的细胞;
15.步骤s13:对清洗后的数据集进行数据预处理,所述预处理包括log normalization数据标准化、数据缩放、移除细胞周期信号及为每个数据集选取8000个高度变化的基因以进行后续数据整合。
16.在一些实施例中,在步骤s20中,对预处理后的所述数据集进行数据融合并去除批次效应的步骤中,具体包括下述步骤:
17.步骤s21:通过典型相关性分析算法寻找多个所述数据集的投影使所有数据集之间的相关性达到最大化;
18.步骤s22:使用动态时间规划调整算法来确定所述数据集之间的最佳映射。
19.在一些实施例中,在步骤s21,通过典型相关性分析算法寻找多个所述数据集的投影使所有数据集之间的相关性达到最大化的步骤中,具体包括下述步骤:
20.步骤s211:对每个数据集的高变基因表达矩阵进行奇异值分解获得初始的典型相关向量ccv;
21.步骤s212:之后通过对每个数据集和其他数据集进行奇异值分解更新每个数据集对应的典型相关向量w直到更新前后的w差值比大于给定的阈值。
22.在一些实施例中,在步骤s22,使用动态时间规划调整算法来确定所述数据集之间的最佳映射的步骤中,具体包括下述步骤:
23.在单细胞的数据集中,采用所述动态时间规划调整算法计算所述数据集之间的扭曲路径以最小化数据集之间的距离,其中,w(w1,w2
…
wk)是扭曲矩阵,其中的每个向量对应于扭曲路径中的点,该点将数据集x中的元素映射到数据集y中并最小化它们之间的距离;将所述典型相关向量映射到所述扭曲矩阵中以实现两个数据集对齐到低维空间;
24.对于两个以上的数据集,以细胞数量最多的数据集作为参考数据集;将其他数据
集与参考数据集分别对齐,最终将每个数据集的所述典型相关向量规范到以参考数据集定义的公共校准空间。
25.在一些实施例中,在步骤s30,对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞的步骤中,具体包括下述步骤:采用基于社区检测的聚类分析算法对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞,步骤如下:
26.步骤s31:以降维之后的数据作为输入数据,以细胞为节点,通过knng算法计算每个节点之间的欧几里得距离以确定每个节点的k-最近邻;
27.步骤s32:采用下述公式计算每个节点与其k个最近邻居节点之间的邻域重叠构造共享最近邻矩阵,其中a,b代表两个节点的“邻居”节点数):j(a,b)=(|a∩b|)/(|a∪b|)=(|a∩b|)/(|a|+|b|-|a∩b|);
28.步骤s33:采用louvain算法通过扫描节点及其邻居节点,对每个节点计算模块度并衡量其加入模块后的模块收益,选择最大收益的邻居节点加入模块,重复迭代,最终形成节点簇;
29.步骤s34:采用wilcoxon秩和检验进行差异分析,并根据每群细胞差异上调的基因判断细胞类型并筛选巨噬细胞。
30.在一些实施例中,在步骤s33,采用louvain算法通过扫描节点及其邻居节点,对每个节点计算模块度并衡量其加入模块后的模块收益,选择最大收益的邻居节点加入模块,重复迭代,最终形成节点簇的步骤中具体包括下述步骤:
31.采用louvain算法通过扫描节点及其邻居节点,采用下述公式对每个节点计算模块度,其中:m是图中边的权重总和,i,j代表两个节点,aij代表两个节点之间的权重,该权重由snn计算得到,ki,kj代表节点i,j所有边的权重之和,ci,cj代表节点i,j所属群,δ是kronecker delta函数):
[0032][0033]
为了最大化q值,louvain算法会计算模块度增益并反复迭代,具体如公式下,其中σin是节点i所进入社区的内部节点权重总和,σtot是节点i和图中所有社区的连接的边的权重之和,ki,in是节点i与i要移入社区中所有节点之间的边的权重之和:
[0034][0035]
在一些实施例中,在步骤s40,鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因的步骤中,具体包括下述步骤:
[0036]
鉴定3群由ipf样本构成的罕见巨噬细胞亚群,3群细胞记为cluster 0,cluster 1,cluster 2,所述3群细胞均表达了ipf标志物,即spp1,ccl2,fabp4,chit1,其中:其中:所述spp1是编码骨桥蛋白的基因,其可显著促进成纤维细胞和上皮细胞的迁移和增殖,可作为疾病ipf标志物;所述ccl2为趋化因子2,能够招募单核巨噬细胞,能够通过涉及炎症、血管生成和肌成纤维细胞积聚的各种机制促进纤维化,可作为ipf疾病标志物;所述fabp4编
码脂肪酸结合蛋白是一种细胞质脂肪酸伴侣蛋白,在脂肪细胞和髓样细胞中表达,可促进巨噬细胞向m1型极化的atp,通过促进m1型巨噬细胞活化参与ipf的发生;所述chit1编码几丁质三糖苷酶,具有促纤维化作用,在ipf患者肺中表达显著。
[0037]
根据本发明的另一实施例,提供了一种特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定系统,包括:
[0038]
数据集获取单元:获取人体肺组织的公开数据集,并对所述数据集进行预处理;
[0039]
预处理单元:对预处理后的所述数据集进行数据融合并去除批次效应;
[0040]
筛选单元:对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞;
[0041]
鉴定单元:鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因。
[0042]
一种存储介质,所述存储介质存储有能够实现上述任意一项所述特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法的程序文件。
[0043]
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一项所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法。
[0044]
本发明实施例中的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法及系统,通过获取人体肺组织的公开数据集,并对所述数据集进行预处理,对预处理后的所述数据集进行数据融合并去除批次效应,对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞,鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因,本技术提供的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法及系统,避免了现有的单细胞数据分析任务只停留在从组织样本中鉴定细胞亚型,在此基础上进一步对特定细胞类型进一步分析能够鉴定了罕见巨噬细胞亚群,并且进一步鉴定了ipf疾病标志物,为疾病诊断提供参考。
附图说明
[0045]
此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0046]
图1为本发明实施例1提供的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法的步骤流程图;
[0047]
图2为本发明实施例1提供的获取人体肺组织的公开数据集,并对所述数据集进行预处理的步骤流程图;
[0048]
图3为本发明实施例1提供的对预处理后的所述数据集进行数据融合并去除批次效应的步骤流程图;
[0049]
图4为本发明实施例1提供的对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞的步骤流程图。
[0050]
图5为本发明实施例1提供的cluster 0,1,2差异上调基因表达heatmap。
[0051]
图6为本发明实施例1提供的关键标志物spp1,ccl2,fabp4,chit1在3群巨噬细胞中的表达分布图。
[0052]
图7为本发明实施例2提供的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定系统的结构示意图。
normalization数据标准化、数据缩放、移除细胞周期信号及为每个数据集选取8000个高度变化的基因以进行后续数据整合。
[0065]
步骤s20:对预处理后的所述数据集进行数据融合并去除批次效应。
[0066]
可以理解,在上述步骤中汇总了每个数据集的高变基因表达数据后,再将所有数据集整合为一个数据集以进行后续的分析。由于这些数据集的非生物因素差异,如实验平台,技术,人员,日期,试剂,样本选择不同,导致在整合这些数据集的过程中可能会引入批次效应。
[0067]
请参阅图3,为本实施例在对预处理后的所述数据集进行数据融合并去除批次效应的步骤流程图,具体包括下述步骤s21~s22,以下详细说明每个步骤的实现方案。
[0068]
步骤s21:通过典型相关性分析算法寻找多个所述数据集的投影使所有数据集之间的相关性达到最大化。
[0069]
可以理解,典型相关性分析算法(cca)的核心是通过寻找多个数据集的投影使所有数据集之间的相关性达到最大化,具体公式如下,其中n代表不同数据集,w对应每个数据集中的典型相关向量ccv。xi,xi,wi,wj分别代表两个不同的数据集及其对应的ccv:
[0070][0071]
每个数据集对应的典型相关向量w(w1,w2
…
wn),通过迭代算法求解。
[0072]
具体地,通过典型相关性分析算法寻找多个所述数据集的投影使所有数据集之间的相关性达到最大化的步骤中,具体包括下述步骤s211~s212,以下详细说明每个步骤的实现方案。
[0073]
步骤s211:对每个数据集的高变基因表达矩阵进行奇异值分解获得初始的典型相关向量ccv;
[0074]
步骤s212:之后通过对每个数据集和其他数据集进行奇异值分解更新每个数据集对应的典型相关向量w直到更新前后的w差值比大于给定的阈值。
[0075]
具体如公式如下,其中n代表不同数据集,w代表典型相关向量ccv,γ和δ分别代表不同数据集的投影向量,λ代表特征向量,svd即为对数据集x进行奇异值分解,得到的结果作w的初始化。当w的差值比小于阈值103时,通过对数据集x和其他数据集k进行奇异值分解更新w直到差值比大于阈值:
[0076]
initializen←
δn,[γn,λn,δn]
←
svd(xn)
[0077][0078]
步骤s22,使用动态时间规划调整算法来确定所述数据集之间的最佳映射的步骤中,具体包括下述步骤:
[0079]
在单细胞的数据集中,采用所述动态时间规划调整算法计算所述数据集之间的扭曲路径以最小化数据集之间的距离,其中,w(w1,w2
…
wk)是扭曲矩阵,其中的每个向量对应于扭曲路径中的点,该点将数据集x中的元素映射到数据集y中并最小化它们之间的距离;将所述典型相关向量映射到所述扭曲矩阵中以实现两个数据集对齐到低维空间;
[0080]
对于两个以上的,以细胞数量最多的数据集作为参考数据集;将其他数据集与参考数据集分别对齐,最终将每个数据集的所述典型相关向量规范到以参考数据集定义的公
共校准空间,所述公共校准空间定义如下,其中w为扭曲矩阵,wk代表扭曲向量:
[0081]
dtw(x,y)=minw[∑k(wk)]。
[0082]
步骤s30,对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞。
[0083]
请参阅图4,为本实施例提供的对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞的步骤流程图,具体包括下述步骤s31~s34,以下详细说明各个步骤的具体实现方案。
[0084]
步骤s31:以降维之后的数据作为输入数据,以细胞为节点,通过knng算法计算每个节点之间的欧几里得距离以确定每个节点的k-最近邻。
[0085]
在本实施例中,通过knng(k-nearest neighbor graph)算法构建单细胞图,以降维之后的数据作为输入数据,以细胞为节点,计算每个节点之间的欧几里得距离以确定每个节点的k-最近邻(knn,k默认为20)。
[0086]
步骤s32:采用下述公式计算每个节点与其k个最近邻居节点之间的邻域重叠构造共享最近邻矩阵,其中a,b代表两个节点的“邻居”节点数):j(a,b)=(|a∩b|)/(|a∪b|)=(|a∩b|)/(|a|+|b|-|a∩b|)。
[0087]
在本实施例中,knng构建完成后,计算每个节点与其k个最近邻居节点之间的邻域重叠(jaccard指数)构造共享最近邻(shared nearest neighbo,snn)矩阵。jaccard指数计算的是两个节点共有的“邻居”和所有“邻居”的比值,比值越大,两个节点越相似。
[0088]
步骤s33:采用louvain算法通过扫描节点及其邻居节点,对每个节点计算模块度并衡量其加入模块后的模块收益,选择最大收益的邻居节点加入模块,重复迭代,最终形成节点簇。
[0089]
可以理解,通过louvain算法作为模块化函数确定聚类数。louvain算法是一种从网络中提取模块的方法,是一种贪婪优化方法。louvain算法通过扫描节点及其邻居节点,对每个节点计算模块度并衡量其加入模块后的模块收益,选择最大收益的邻居节点加入模块,重复迭代,最终形成节点簇。
[0090]
具体地,采用louvain算法通过扫描节点及其邻居节点,采用下述公式对每个节点计算模块度,其中:m是图中边的权重总和,i,j代表两个节点,aij代表两个节点之间的权重,该权重由snn计算得到,ki,kj代表节点i,j所有边的权重之和,ci,cj代表节点i,j所属群,δ是kronecker delta函数)
[0091][0092]
为了最大化q值,louvain算法会计算模块度增益并反复迭代,具体如公式下,其中σin是节点i所进入社区的内部节点权重总和,σtot是节点i和图中所有社区的连接的边的权重之和,ki,in是节点i与i要移入社区中所有节点之间的边的权重之和:
[0093][0094]
表2表示为本实施例提供的四组数据集细胞总数以及筛选巨噬细胞数量
[0095][0096][0097]
步骤s40:鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因。
[0098]
在本实施例中,在筛选完巨噬细胞后,通过对巨噬细胞进行二次聚类和差异分析,鉴定了3群由ipf样本构成的罕见巨噬细胞亚群(3群细胞记为cluster 0,cluster 1,cluster 2,差异基因表达heatmap如图5所示),这3群细胞均表达了ipf标志物,即spp1,ccl2,fabp4,chit1(4个标志物表达点图如图6所示)。spp1是编码骨桥蛋白(osteopontin)的基因,该蛋白与ipf高度相关,可作为疾病ipf标志物,可显著促进成纤维细胞和上皮细胞的迁移和增殖。ccl2为趋化因子2,能够招募单核巨噬细胞、嗜碱性粒细胞,可作为ipf疾病标志物。fabp4编码脂肪酸结合蛋白(fatty acid binding protein),是一种细胞质脂肪酸伴侣蛋白,主要在脂肪细胞和髓样细胞中表达。fabp4在ipf疾病进程中有着潜在的作用,其参与的脂肪酸氧化(fao)产生了大量被认为促进巨噬细胞向m1型极化的atp。而m1型巨噬细胞激活后会产生促纤维化的介质,如tgf-β1(激活成纤维细胞和ecm堆积)。chit1在ipf患者肺中表达显著,被证明具有促纤维化作用,并可以成为治疗ipf的潜在新靶点。
[0099]
本发明实施例中的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,通过获取人体肺组织的公开数据集,并对所述数据集进行预处理,对预处理后的所述数据集进行数据融合并去除批次效应,对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞,鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因,上述鉴定方法,避免了现有的单细胞数据分析任务只停留在从组织样本中鉴定细胞亚型,在此基础上进一步对特定细胞类型进一步分析能够鉴定了罕见巨噬细胞亚群,并且进一步鉴定了ipf疾病标志物,为疾病诊断提供参考。
[0100]
实施例2
[0101]
请参阅图7,根据本发明的另一实施例,提供了一种特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定系统的结构示意图,包括:
[0102]
数据集获取单元110:获取人体肺组织的公开数据集,并对所述数据集进行预处理;
[0103]
预处理单元120:对预处理后的所述数据集进行数据融合并去除批次效应;
[0104]
筛选单元130:对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞;
[0105]
鉴定单元140:鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因。
[0106]
本实施例提供的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定系统,其详细的实现方案在实施例1中已有详细说明,这里不再赘述。
[0107]
本发明实施例中的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定系统,通过获取人体肺组织的公开数据集,并对所述数据集进行预处理,对预处理后的所述数据集进行数据融合并去除批次效应,对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞,鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因,上述鉴定系统,避免了现有的单细胞数据分析任务只停留在从组织样本中鉴定细胞亚型,在此基础上进一步对特定细胞类型进一步分析能够鉴定了罕见巨噬细胞亚群,并且进一步鉴定了ipf疾病标志物,为疾病诊断提供参考。
[0108]
实施例3
[0109]
一种存储介质,存储介质存储有能够实现上述任意一项特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法的程序文件。
[0110]
实施例4
[0111]
一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法。
[0112]
本发明实施例的技术优点至少在于:避免了现有的单细胞数据分析任务只停留在从组织样本中鉴定细胞亚型,在此基础上进一步对特定细胞类型进一步分析能够鉴定了罕见巨噬细胞亚群,并且进一步鉴定了ipf疾病标志物,为疾病诊断提供参考。
[0113]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0114]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0115]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0116]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0117]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0118]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0119]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人
员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:1.一种特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,其特征在于,包括以下步骤:步骤s10:获取人体肺组织的公开数据集,并对所述数据集进行预处理;步骤s20:对预处理后的所述数据集进行数据融合并去除批次效应;步骤s30:对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞;步骤s40:鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因。2.根据权利要求1所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,其特征在于,在步骤s10,获取人体肺组织的公开数据集,并对所述数据集进行预处理的步骤中,具体包括下述步骤:步骤s11:从geo数据库中选取4个数据集,分别是gse136831,gse135893,gse128033和gse122960,所述4个数据集均提取了人体肺组织并且分离单细胞进行测序;步骤s12:对上述每个数据集进行数据清洗,所述数据清洗包括移除没有在任何细胞中表达的基因以及移除表达基因数小于200的细胞和线粒体相关基因表达占比大于25%的细胞;步骤s13:对清洗后的数据集进行数据预处理,所述预处理包括log normalization数据标准化、数据缩放、移除细胞周期信号及为每个数据集选取8000个高度变化的基因以进行后续数据整合。3.根据权利要求1所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,其特征在于,在步骤s20中,对预处理后的所述数据集进行数据融合并去除批次效应的步骤中,具体包括下述步骤:步骤s21:通过典型相关性分析算法寻找多个所述数据集的投影使所有数据集之间的相关性达到最大化;步骤s22:使用动态时间规划调整算法来确定所述数据集之间的最佳映射。4.根据权利要求3所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,其特征在于,在步骤s21,通过典型相关性分析算法寻找多个所述数据集的投影使所有数据集之间的相关性达到最大化的步骤中,具体包括下述步骤:步骤s211:对每个数据集的高变基因表达矩阵进行奇异值分解获得初始的典型相关向量ccv;步骤s212:之后通过对每个数据集和其他数据集进行奇异值分解更新每个数据集对应的典型相关向量w直到更新前后的w差值比大于给定的阈值。5.根据权利要求4所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,其特征在于,在步骤s22,使用动态时间规划调整算法来确定所述数据集之间的最佳映射的步骤中,具体包括下述步骤:在单细胞的数据集中,采用所述动态时间规划调整算法计算所述数据集之间的扭曲路径以最小化数据集之间的距离,其中,w(w1,w2
…
wk)是扭曲矩阵,其中的每个向量对应于扭曲路径中的点,该点将数据集x中的元素映射到数据集y中并最小化它们之间的距离;将所述典型相关向量映射到所述扭曲矩阵中以实现两个数据集对齐到低维空间;对于两个以上的数据集,以细胞数量最多的数据集作为参考数据集;将其他数据集与
参考数据集分别对齐,最终将每个数据集的所述典型相关向量规范到以参考数据集定义的公共校准空间。6.根据权利要求1所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,其特征在于,在步骤s30,对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞的步骤中,具体包括下述步骤:采用基于社区检测的聚类分析算法对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞,步骤如下:步骤s31:以降维之后的数据作为输入数据,以细胞为节点,通过knng算法计算每个节点之间的欧几里得距离以确定每个节点的k-最近邻;步骤s32:采用下述公式计算每个节点与其k个最近邻居节点之间的邻域重叠构造共享最近邻矩阵,其中a,b代表两个节点的“邻居”节点数):j(a,b)=(|a∩b|)/(|a∪b|)=(|a∩b|)/(|a|+|b|-|a∩b|);步骤s33:采用louvain算法通过扫描节点及其邻居节点,对每个节点计算模块度并衡量其加入模块后的模块收益,选择最大收益的邻居节点加入模块,重复迭代,最终形成节点簇;步骤s34:采用wilcoxon秩和检验进行差异分析,并根据每群细胞差异上调的基因判断细胞类型并筛选巨噬细胞。7.根据权利要求6所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,其特征在于,在步骤s33,采用louvain算法通过扫描节点及其邻居节点,对每个节点计算模块度并衡量其加入模块后的模块收益,选择最大收益的邻居节点加入模块,重复迭代,最终形成节点簇的步骤中具体包括下述步骤:采用louvain算法通过扫描节点及其邻居节点,采用下述公式对每个节点计算模块度,其中:m是图中边的权重总和,i,j代表两个节点,aij代表两个节点之间的权重,该权重由snn计算得到,ki,kj代表节点i,j所有边的权重之和,ci,cj代表节点i,j所属群,δ是kronecker delta函数):为了最大化q值,louvain算法会计算模块度增益并反复迭代,具体如公式下,其中σin是节点i所进入社区的内部节点权重总和,σtot是节点i和图中所有社区的连接的边的权重之和,ki,in是节点i与i要移入社区中所有节点之间的边的权重之和:8.根据权利要求6所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法,其特征在于,在步骤s40,鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因的步骤中,具体包括下述步骤:鉴定3群由ipf样本构成的罕见巨噬细胞亚群,3群细胞记为cluster 0,cluster 1,cluster 2,所述3群细胞均表达了ipf标志物,即spp1,ccl2,fabp4,chit1,其中:所述spp1是编码骨桥蛋白的基因,其可显著促进成纤维细胞和上皮细胞的迁移和增殖,可作为疾病
ipf标志物;所述ccl2为趋化因子2,能够招募单核巨噬细胞,能够通过涉及炎症、血管生成和肌成纤维细胞积聚的各种机制促进纤维化,可作为ipf疾病标志物;所述fabp4编码脂肪酸结合蛋白是一种细胞质脂肪酸伴侣蛋白,在脂肪细胞和髓样细胞中表达,可促进巨噬细胞向m1型极化的atp,通过促进m1型巨噬细胞活化参与ipf的发生;所述chit1编码几丁质三糖苷酶,具有促纤维化作用,在ipf患者肺中表达显著。9.一种特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定系统,其特征在于,包括:数据集获取单元:获取人体肺组织的公开数据集,并对所述数据集进行预处理;预处理单元:对预处理后的所述数据集进行数据融合并去除批次效应;筛选单元:对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞;鉴定单元:鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因。10.一种存储介质,其特征在于,所述存储介质存储有能够实现权利要求1至8中任意一项所述特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法的程序文件。11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法。
技术总结本发明提供了一种特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法及系统,通过获取人体肺组织的公开数据集,并对所述数据集进行预处理,对预处理后的所述数据集进行数据融合并去除批次效应,对融合后的所述数据集进行聚类并标记每群细胞的细胞类型并筛选巨噬细胞,鉴定所述巨噬细胞中罕见巨噬细胞亚型及其差异表达基因,本申请提供的特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法及系统,避免了现有的单细胞数据分析任务只停留在从组织样本中鉴定细胞亚型,在此基础上进一步对特定细胞类型进一步分析能够鉴定了罕见巨噬细胞亚群,并且进一步鉴定了IPF疾病标志物,为疾病诊断提供参考。为疾病诊断提供参考。为疾病诊断提供参考。
技术研发人员:高俊晓 李楠 殷鹏
受保护的技术使用者:中国科学院深圳先进技术研究院
技术研发日:2022.04.20
技术公布日:2022/7/5