本说明书一个或多个实施例涉及联邦学习,尤其涉及一种纵向联邦学习的训练数据获取方法、装置、设备及介质。
背景技术:
1、在大数据时代,每个数据持有方(如客户端)都持有着大量的数据,然而,出于隐私保护和数据安全的考虑,这些数据通常无法集中到一起进行处理。联邦学习作为一种分布式的机器学习技术,可以允许各个数据持有方在不共享原始数据的情况下共同训练一个机器学习模型,从而充分利用多方的数据资源实现模型训练,以提高模型的性能和泛化能力,并且可以有效地保证数据的隐私性和安全性。
2、而纵向联邦学习作为联邦学习中的一种实现方式,可以在不同的数据持有方之间存在相同样本但样本特征不同的情况下,联合训练一个可以利用更全面的信息实现预测和决策的机器学习模型。但是,由于各个数据持有方所持有的数据量都比较庞大,从而使得在使用联邦学习的方法实现模型训练时,可能会消耗较大的时间成本和计算资源成本。
技术实现思路
1、有鉴于此,本说明书一个或多个实施例提供一种纵向联邦学习的训练数据获取方法、装置、设备及介质。
2、为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
3、根据本说明书一个或多个实施例的第一方面,提出了一种纵向联邦学习的训练数据获取方法,所述方法包括:
4、基于来自多个数据持有方的数据集获取多个备选数据样本,每个备选数据样本均为不同数据持有方共有的数据样本;
5、对于所述多个备选数据样本中的任一备选数据样本,基于所述备选数据样本在不同数据持有方上所属的样本分组,确定所述备选数据样本到各个所属样本分组的分组中心的距离,每个样本分组对应于一个分组标签,所述分组标签基于样本分组的分组中心确定;
6、基于所述多个备选数据样本在不同数据持有方上所属的样本分组,将对应于同一分组标签的备选数据样本中与对应样本分组的分组中心之间的距离满足第一距离要求的备选数据样本确定为用于进行纵向联邦学习的训练数据。
7、根据本说明书一个或多个实施例的第二方面,提出了一种纵向联邦学习的训练数据获取装置,所述装置包括:
8、获取模块,用于基于来自多个数据持有方的数据集获取多个备选数据样本,每个备选数据样本均为不同数据持有方共有的数据样本;
9、第一确定模块,用于对于所述多个备选数据样本中的任一备选数据样本,基于所述备选数据样本在不同数据持有方上所属的样本分组,确定所述备选数据样本到各个所属样本分组的分组中心的距离,每个样本分组对应于一个分组标签,所述分组标签基于样本分组的分组中心确定;
10、第二确定模块,用于基于所述多个备选数据样本在不同数据持有方上所属的样本分组,将对应于同一分组标签的备选数据样本中与对应样本分组的分组中心之间的距离满足第一距离要求的备选数据样本确定为用于进行纵向联邦学习的训练数据。
11、根据本说明书一个或多个实施例的第三方面,提出了一种计算设备,包括:
12、处理器;
13、用于存储处理器可执行指令的存储器;
14、其中,所述处理器通过运行所述可执行指令以实现如第一方面所述的方法。
15、根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如第一方面所述的方法。
16、本说明书通过基于来自多个数据持有方的数据集,获取不同数据持有方共有的多个备选数据样本,从而基于每个备选数据样本在不同数据持有方上所属的样本分组,确定各个备选数据样本到各个样本分组的分组中心的距离,每个样本分组均会对应于一个分组标签,进而基于多个备选数据样本在不同数据持有方上所属的样本分组,将对应于同一分组标签的备选数据样本中与对应样本分组的分组中心之间的距离满足第一距离要求的备选数据样本确定为用于进行纵向联邦学习的训练数据,以达到从每个分组标签所对应的数据样本中选择具备代表性的数据样本作为用于进行纵向联邦学习的训练数据的目的,以在保证纵向联邦学习的训练效果的前提下,实现纵向联邦学习场景下的训练数据缩约,从而实现纵向联邦学习训练数据数量上的减少。
1.一种纵向联邦学习的训练数据获取方法,所述方法包括:
2.根据权利要求1所述的方法,所述基于来自多个数据持有方的数据集获取多个备选数据样本,包括:
3.根据权利要求2所述的方法,所述基于来自多个数据持有方的数据集进行隐私集合求交,得到所述多个备选数据样本,包括:
4.根据权利要求3所述的方法,向分组中的两个数据持有方分别发送操作指令,包括:
5.根据权利要求1所述的方法,所述基于来自多个数据持有方的数据集获取多个备选数据样本之前,所述方法还包括:
6.根据权利要求5所述的方法,所述基于来自所述多个数据持有方的数据集分别进行聚类,得到多个样本分组,包括:
7.根据权利要求5所述的方法,所述基于来自多个数据持有方的数据集获取多个备选数据样本之前,所述方法还包括:
8.根据权利要求1所述的方法,所述基于所述多个备选数据样本在不同数据持有方上所属的样本分组,将对应于同一分组标签的备选数据样本中与对应样本分组的分组中心之间的距离满足第一距离要求的备选数据样本确定为用于进行纵向联邦学习的训练数据,包括:
9.一种纵向联邦学习的训练数据获取装置,所述装置包括:
10.一种计算设备,包括:
11.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。