数据样本聚类方法及装置与流程

allin2022-09-03  143



1.本发明涉及数据处理,尤其是一种数据样本聚类方法及装置。


背景技术:

2.聚类是在人工智能、机器学习领域数据处理技术。聚类是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。也就是说, 聚类的目标是得到较高的簇内相似度和较低的簇间相似度,使得簇间的距离尽可能大,簇内样本与簇中心的距离尽可能小。目前主要的聚类方法如下:上述现有聚类方法解决的在同一份数据集(数据样本)里,各条数据之间的相似(相近)程度,而不是一份数据样本与另外一份数据样本之间的相似(相近)程度。比如,现在有12家银行需要联合训练风险控制模型,每家都贡献一份自己的数据样本,每份数据样本都含有x变量(自变量)和y变量(因变量), 这12份样本可以分为几种类型,哪些样本可以分为同一个类型(聚类),这是现有聚类方法不能解决的问题,即无法解决数据样本与数据样本之间的聚类问题。


技术实现要素:

3.本发明的发明目的在于提供一种数据样本聚类方法及装置,能够有效实现数据样本与数据样本之间的聚类。
4.基于同一发明构思,本发明具有两个独立的技术方案:1、一种数据样本聚类方法,包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型;步骤2:将每套样本评估模型逐一测试各套数据样本,对应每套样本评估模型均相应获得一组测试指标数据;步骤3:基于测试指标数据,计算数据样本与数据样本之间的距离;步骤4:从未完成聚类的数据样本中选取一套数据样本训练新簇;步骤5:判断是否有未完成聚类的数据样本,如果是,则进入步骤6,如果否,则结束聚类;步骤6:计算余下未完成聚类的每套数据样本与新簇之间的距离,选取最小距离的数据样本,判断该最小距离是否大于阈值,如果是,则返回步骤4,选取该最小距离的数据样
本训练新簇,如果否,则将该最小距离的数据样本加入新簇,并返回步骤5。
5.进一步地,步骤3中,数据样本与数据样本之间的距离通过如下方法获得,计算a数据样本到b数据样本方向的距离c1,计算方法为用a数据样本对应的a样本评估模型测试b数据样本,获得测试指标数据m1,则距离c1=1-m1;计算b数据样本到a数据样本方向的距离c2,计算方法为用b数据样本对应的b样本评估模型测试a数据样本,获得测试指标数据m2,则距离c2=1-m2;a数据样本与b数据样本之间的距离c=(c1+c2)/2。
6.进一步地,如果距离c1或距离c2的数值大于阈值,则将距离c1或距离c2的数值赋予最大值。
7.进一步地,步骤4中,计算每套样本评估模型对应测试指标数据的平均值,选取最大平均值对应的数据样本,作为训练新簇的第一套数据样本。
8.进一步地,步骤6中,数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的平均值。
9.进一步地,步骤6中,数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的最大值。
10.进一步地,步骤1中,选取的每套数据样本均包含有自变量和因变量。
11.进一步地,评估模型为风险控制评估模型,评估模型的测试指标数据为auc值或k-s值。
12.2、一种数据样本聚类装置,包括多个训练服务器,用于执行上述方法;每套数据样本相应设有1个样本评估模型训练服务器,所述样本评估模型训练服务器用于训练数据样本所对应的样本评估模型;还包括聚类训练服务器,所述聚类训练服务器用于对数据样本聚类。
13.本发明具有的有益效果:本发明选取多套数据样本,对应每套数据样本训练一套样本评估模型;将每套样本评估模型逐一测试各套数据样本,对应每套样本评估模型均相应获得一组测试指标数据;基于每套样本评估模型的测试指标数据,计算数据样本与数据样本之间的距离;基于数据样本与数据样本之间的距离,对数据样本聚类。本发明有效解决了数据样本与数据样本的聚类问题。
14.本发明数据样本与数据样本之间的距离通过如下方法获得,计算a数据样本到b数据样本方向的距离c1,计算方法为用a数据样本对应的a样本评估模型测试b数据样本,获得测试指标数据m1,则距离c1=1-m1;计算b数据样本到a数据样本方向的距离c2,计算方法为用b数据样本对应的b样本评估模型测试a数据样本,获得测试指标数据m2,则距离c2=1-m2;a数据样本与b数据样本之间的距离c=(c1+c2)/2;评估模型为风险控制评估模型,评估模型的测试指标数据为auc值或k-s值。本发明通过上述数据样本与数据样本之间的距离计算方法,进一步保证基于该距离进行数据样本聚类的工作可靠性。
15.本发明如果距离c1或距离c2的数值大于阈值,则将距离c1或距离c2的数值赋予最大值;计算每套样本评估模型对应测试指标数据的平均值,选取最大平均值对应的数据样本,作为训练新簇的第一套数据样本进一步提高了数据样本聚类的效率。
16.本发明数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距
离的平均值;或者数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的最大值;本发明基于上述数据样本与新簇之间的距离计算方法,对数据样本聚类,进一步保证了聚类的可靠性。
附图说明
17.图1是本发明数据样本聚类方法流程图。
具体实施方式
18.下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
19.实施例一:数据样本聚类方法如图1所示,本发明数据样本聚类方法包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型。
20.例如有12家银行,每家银行提供了一个(套)数据样本,则对应训练12个(套)模型。每套数据样本含有x、y变量,数据样本个数若干。
21.x是自变量,例如:信用历史长度、最近5年违约次数、最近5年最大违约天数等。
22.y是因变量,y可以是费类型变量,例如:该客户核卡之后6个月内是否违约超过60天;也可以是连续型变量,例如:该客户核卡之后6个月内违约天数。
23.一套数据样本包含若干个子数据样本,例如 一个子数据样本表示一个客户的信息。每个银行的样本数量可以不一样。
24.那么这12套数据样本可以训练12套样本评估模型(每套样本评估模型可以含有不同的子模型)。如下表所示:评估模型为风险控制评估模型,评估模型的测试指标数据为auc值或k-s值,本实施例中,采用auc值。通过风险控制评估模型测试指标数据auc值或k-s值,属于现有技术。
25.步骤2:将每套样本评估模型逐一测试各套数据样本,对应每套样本评估模型均相应获得一组测试指标数据。
26.本实施例中,12套数据样本、12套样本评估模型对应的测试指标数据如下表1所示,评测指标值为auc值。
27.表1步骤3:基于测试指标数据,计算数据样本与数据样本之间的距离。
28.数据样本与数据样本之间的距离通过如下方法获得,计算a数据样本到b数据样本方向的距离c1,计算方法为用a数据样本对应的a样本评估模型测试b数据样本,获得测试指标数据m1,则距离c1=1-m1;计算b数据样本到a数据样本方向的距离c2,计算方法为用b数据样本对应的b样本评估模型测试a数据样本,获得测试指标数据m2,则距离c2=1-m2;a数据样本与b数据样本之间的距离c=(c1+c2)/2。
29.如果距离c1或距离c2的数值大于阈值,则将距离c1或距离c2的数值赋予最大值,本实施例中,测试指标数据为auc值,距离为(1-auc)值,将最大值设置为100。
30.本实施中,将数据样本a的样本评估模型测数据样本b的(1-auc)值,当做a-》b(a数据样本到b数据样本)的距离,则样本之间的有向距离如下表2所示:表2
如果距离超过预设的阈值,本实施例中,阈值设定为0.49,则设为该距离为距离最大值100。如表3所示:表3a数据样本与b数据样本的路径(距离)=(a-》b的距离+ b
ꢀ‑
》a的距离)/2; a与a的距离设为0。最终样本之间距离如表4所示:表4
步骤4:从未完成聚类的数据样本中选取一套数据样本训练新簇。
31.计算每套样本评估模型对应测试指标数据的平均值,选取最大平均值对应的数据样本,作为训练新簇的第一套数据样本。
32.本实施例中,如表5所示,auc值平均值最大的是 0.7601, 对应用样本s12构建出来的样本评估模型m12,因此选样本s12当新簇的第一套数据样本。
33.表5步骤5:判断是否有未完成聚类的数据样本,如果是,则进入步骤6,如果否,则结束聚类。
34.步骤6:计算余下未完成聚类的每套数据样本与新簇之间的距离,选取最小距离的数据样本,判断该最小距离是否大于阈值,如果是,则返回步骤4,选取该最小距离的数据样
本训练新簇,如果否,则将该最小距离的数据样本加入新簇,并返回步骤5。
35.数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的平均值;或者数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的最大值。
36.实施例二:数据样本聚类装置包括多个训练服务器,用于实施例一所述的方法。每套数据样本相应设有1个样本评估模型训练服务器,样本评估模型训练服务器用于训练数据样本所对应的样本评估模型;还包括聚类训练服务器,聚类训练服务器用于对数据样本聚类。
37.上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
38.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

技术特征:
1.一种数据样本聚类方法,其特征在于,包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型;步骤2:将每套样本评估模型逐一测试各套数据样本,对应每套样本评估模型均相应获得一组测试指标数据;步骤3:基于测试指标数据,计算数据样本与数据样本之间的距离;步骤4:从未完成聚类的数据样本中选取一套数据样本当作新簇;步骤5:判断是否有未完成聚类的数据样本,如果是,则进入步骤6,如果否,则结束聚类;步骤6:计算余下未完成聚类的每套数据样本与新簇之间的距离,选取最小距离的数据样本,判断该最小距离是否大于阈值,如果是,则返回步骤4,选取该最小距离的数据样本训练新簇,如果否,则将该最小距离的数据样本加入新簇,并返回步骤5。2.根据权利要求1所述的数据样本聚类方法,其特征在于:步骤3中,数据样本与数据样本之间的距离通过如下方法获得,计算a数据样本到b数据样本方向的距离c1,计算方法为用a数据样本对应的a样本评估模型测试b数据样本,获得测试指标数据m1,则距离c1=1-m1;计算b数据样本到a数据样本方向的距离c2,计算方法为用b数据样本对应的b样本评估模型测试a数据样本,获得测试指标数据m2,则距离c2=1-m2;a数据样本与b数据样本之间的距离c=(c1+c2)/2。3.根据权利要求2所述的数据样本聚类方法,其特征在于:如果距离c1或距离c2的数值大于阈值,则将距离c1或距离c2的数值赋予最大值。4.根据权利要求1所述的数据样本聚类方法,其特征在于:步骤4中,计算每套样本评估模型对应测试指标数据的平均值,选取最大平均值对应的数据样本,作为训练新簇的第一套数据样本。5.根据权利要求1所述的数据样本聚类方法,其特征在于:步骤6中,数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的平均值。6.根据权利要求1所述的数据样本聚类方法,其特征在于:步骤6中,数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的最大值。7.根据权利要求1所述的数据样本聚类方法,其特征在于:步骤1中,选取的每套数据样本均包含有自变量和因变量。8.根据权利要求1至7任何一项所述的数据样本聚类方法,其特征在于:评估模型为风险控制评估模型,评估模型的测试指标数据为auc值或k-s值。9.一种数据样本聚类装置,其特征在于,包括多个训练服务器,用于执行权利要求1-8任何一项所述的方法;每套数据样本相应设有1个样本评估模型训练服务器,所述样本评估模型训练服务器用于训练数据样本所对应的样本评估模型;还包括聚类训练服务器,所述聚类训练服务器用于对数据样本聚类。

技术总结
本发明涉及一种数据样本聚类方法及装置,选取多套数据样本,对应每套数据样本训练一套样本评估模型;将每套样本评估模型逐一测试各套数据样本,对应每套样本评估模型均相应获得一组测试指标数据;基于测试指标数据,计算数据样本与数据样本之间的距离;基于数据样本与数据样本之间的距离,训练新簇聚类。本发明能够有效实现数据样本与数据样本之间的聚类。够有效实现数据样本与数据样本之间的聚类。够有效实现数据样本与数据样本之间的聚类。


技术研发人员:郭方红
受保护的技术使用者:郭方红
技术研发日:2022.03.23
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-2984.html

最新回复(0)