1.本发明涉及数据处理
技术领域:
:,具体而言,涉及一种快递数据的敏感度计算方法、装置、存储介质及设备。
背景技术:
::2.随着信息化的高速发展,大数据计算趋势已经全面来临。人们网上购物的需求也急剧增加,这其中便不乏利用快递邮件等途径掩人耳目进行违法犯罪活动。因此如何快速识别并获取可疑人员及快递信息成为亟待解决的问题。现有技术中主要通过快递安检的形式进行违法快递的排查,但是上述方法需要耗费大量的人力物力,排查效率较低。3.针对上述的问题,目前尚未提出有效的解决方案。技术实现要素:4.本发明实施例提供了一种快递数据的敏感度计算方法、装置、存储介质及设备,以至少解决由于现有技术中通过快递逐个安检的形式进行违法快递排查,造成的耗费大量的人力物力,排查效率较低的技术问题。5.根据本发明实施例的一个方面,提供了一种快递数据的敏感度计算方法,包括:获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;对上述整合数据进行kmeans聚类处理,得到聚类后数据;根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数。6.可选的,上述获取快递数据在多个第一维度下的当前发生次数,包括:分别统计上述发件数据在每个上述第一维度下的第一发生次数,以及上述收件数据在每个上述第一维度下的第二发生次数;根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据,包括:对每个上述第一维度下所有的上述第一发生次数进行整合处理,以及每个上述第一维度下所有的上述第二发生次数进行整合处理,得到上述整合数据。7.可选的,上述对上述整合数据进行kmeans聚类处理,得到聚类后数据,包括:按照预定数据范围对上述整合数据进行数据格式处理,得到处理后整合数据;采用降维算法对上述处理后整合数据进行降维处理,得到第二维度对应的降维后的数据;对上述降维后的数据进行标准化处理,得到目标格式数据;对上述目标格式数据进行上述kmeans聚类处理,得到上述聚类后数据。8.可选的,在根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值之后,上述方法还包括:根据每个上述电话号码确定对应的敏感度评分值生成敏感度评分表格,其中,上述敏感度评分表格包括:发件敏感度数据表格和收件敏感度数据表格;在接收到敏感度检索请求时,确定上述敏感度检索请求中携带的至少一个上述电话号码;从上述敏感度评分表格中检索得到与至少一个上述电话号码对应的上述敏感度评分值。9.可选的,上述根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,包括:根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,得到第一排序结果;对上述聚类后数据中的每一类数据进行二次kmeans聚类处理,得到二次聚类后数据;根据欧式聚类算法对上述二次聚类后数据中每一类数据的质心进行排序,得到第二排序结果;根据基于上述第一排序结果确定的基础分值和上述第二排序结果,为每个上述电话号码确定对应的上述敏感度评分值。10.可选的,在获取快递数据在多个第一维度下的当前发生次数之前,上述方法还包括:以存储上述快递数据的快递数据表作为数据来源,抽取得到多个上述第一维度;其中,上述第一维度包括:姓名模糊、地址模糊、频换姓名、频换地址、重点关注地区、非号码归属地收发快递、重点关注物品、重点关注人群。11.根据本发明实施例的另一方面,还提供了一种快递数据的敏感度计算装置,包括:第一获取模块,用于获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;第二获取模块,用于根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;聚类模块,用于对上述整合数据进行kmeans聚类处理,得到聚类后数据;确定模块,用于根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数。12.可选的,上述聚类模块,包括:第一获取子模块,用于按照预定数据范围对上述整合数据进行数据格式处理,得到处理后整合数据;第二获取子模块,用于采用降维算法对上述处理后整合数据进行降维处理,得到第二维度对应的降维后的数据;第三获取子模块,用于对上述降维后的数据进行标准化处理,得到目标格式数据;第一聚类子模块,用于对上述目标格式数据进行上述kmeans聚类处理,得到上述聚类后数据。13.根据本发明实施例的另一方面,还提供了一种非易失性存储介质,上述非易失性存储介质存储有多条指令,上述指令适于由处理器加载并执行任意一项上述的快递数据的敏感度计算方法。14.根据本发明实施例的另一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为运行上述计算机程序以执行任意一项上述的快递数据的敏感度计算方法。15.在本发明实施例中,采用快递数据的敏感度计算的方式,通过获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;对上述整合数据进行kmeans聚类处理,得到聚类后数据;根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数,达到了根据快递数据计算快递用户的敏感度评分值,并以此作为依据快速识别可能存在的违法快递的目的,从而实现了提高违法快递排查效率,降低人力成本的技术效果的技术效果,进而解决了由于现有技术中通过快递逐个安检的形式进行违法快递排查,造成的耗费大量的人力物力,排查效率较低的技术问题。附图说明16.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:17.图1是根据本发明实施例的一种快递数据的敏感度计算方法的流程图;18.图2是根据本发明实施例的一种可选的敏感度评分结果的示意图;19.图3是根据本发明实施例的一种可选的快递数据的敏感度计算方法的流程图;20.图4是根据本发明实施例的一种可选的敏感度评分查询的流程图;21.图5是根据本发明实施例的另一种可选的快递数据的敏感度计算方法的流程图;22.图6是根据本发明实施例的另一种可选的快递数据的敏感度计算方法的流程图;23.图7是根据本发明实施例的一种快递数据的敏感度计算装置的结构示意图。具体实施方式24.为了使本
技术领域:
:的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。25.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。26.首先,为方便理解本发明实施例,下面将对本发明中所涉及的部分术语或名词进行解释说明:27.pca(principalcomponentsanalysis):即主成分分析技术,又称主分量分析。旨在利用降维的思想,把多指标转化为少数几个综合指标。28.聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。29.欧式聚类:一种基于欧氏距离度量的聚类算法,基于kd-tree的近邻查询算法是加速欧式聚类算法的重要预处理方法。30.实施例131.根据本发明实施例,提供了一种快递数据的敏感度计算的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。32.图1是根据本发明实施例的一种快递数据的敏感度计算方法的流程图,如图1所示,该方法包括如下步骤:33.步骤s102,获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;34.步骤s104,根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;35.步骤s106,对上述整合数据进行kmeans聚类处理,得到聚类后数据;36.步骤s108,根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数。37.在本发明实施例中,采用快递数据的敏感度计算的方式,通过获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;对上述整合数据进行kmeans聚类处理,得到聚类后数据;根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数,达到了根据快递数据计算快递用户的敏感度评分值,并以此作为依据快速识别可能存在的违法快递的目的,从而实现了提高违法快递排查效率,降低人力成本的技术效果的技术效果,进而解决了由于现有技术中通过快递逐个安检的形式进行违法快递排查,造成的耗费大量的人力物力,排查效率较低的技术问题。38.可选的,以快递数据表作为数据来源,抽取第一维度;上述第一维度包括:姓名模糊、地址模糊、频换姓名、频换地址、重点关注地区、非号码归属地收发快递、重点关注物品、重点关注人群。39.可选的,分别统计发件数据和收件数据在多个第一维度下的当前发生次数,即分别统计上述发件数据在每个上述第一维度下的第一发生次数,以及上述收件数据在每个上述第一维度下的第二发生次数。40.可选的,以电话号码为分组分别对每个上述第一维度下所有的发件数据对应的第一发生次数进行整合处理,以及每个上述第一维度下所有的收件数据对应的第二发生次数进行整合处理,得到上述整合数据。41.可选的,上述质心为聚类中心点到原点的距离;上述敏感度评分值至少包括以下之一:发件敏感度评分值、收件敏感度评分值,图2示出了李某某的敏感度评分值,如图2所示,李某某的发件敏感度评分值和收件敏感度评分值均为42。42.可选的,上述敏感度评分值越高,则表明上述敏感度评分值对应用户存在违法行为的可能性越大。43.作为一种可选的实施例,图3是根据本发明实施例的一种可选的快递数据的敏感度计算方法的流程图,如图3所示,上述对上述整合数据进行kmeans聚类处理,得到聚类后数据,包括:44.步骤s302,按照预定数据范围对上述整合数据进行数据格式处理,得到处理后整合数据;45.步骤s304,采用降维算法对上述处理后整合数据进行降维处理,得到第二维度对应的降维后的数据;46.步骤s306,对上述降维后的数据进行标准化处理,得到目标格式数据;47.步骤s308,对上述目标格式数据进行上述kmeans聚类处理,得到上述聚类后数据。48.可选的,上述预定数据范围可以但不限于为目标区域内居民的快递数据,例如xx城市居民快递数据、xx省居民快递数据、xx自治区居民快递数据,等等。49.可选的,按照预定数据范围对上述整合数据进行数据格式处理,得到处理后整合数据如表1所示。50.表1[0051][0052][0053]可选的,上述降维算法可以但不限于为madlib中的主成分分析pca算法。需要说明的是,上述降维算法可以使用最少数的维度来表示最多的意思,低维度计算方差更趋于稳定。因此使用低维度的数据更加便于计算,也可表示高纬度数据的意思。[0054]可选的,采用降维算法(如pca算法)对上述处理后整合数据进行降维处理,得到第二维度对应的降维后的数据,包括:[0055]s1,处理后整合数据(8个维度)进行去相关性处理,创建原始稠密矩阵表(jqxx.jqxx_shpr_zz)并添加数据,具体实现代码如下:[0056]droptableifexistsjqxx.jqxx_shpr_zz;[0057]createtablejqxx.jqxx_shpr_zz(idinteger,row_vecdoubleprecision[]);[0058]insertintojqxx.jqxx_shpr_zzvalues[0059](1,'{1,5,2,0,0,0,0,0}'),[0060](2,'{0,1,0,0,0,0,0,1}'),[0061](3,'{0,5,0,0,0,2,0,0}'),[0062](4,'{0,0,1,0,2,0,0,2}'),[0063](5,'{1,2,0,1,1,0,0,4}'),[0064](6,'{1,0,0,1,0,0,1,0}'),[0065](7,'{1,1,0,0,0,0,3,0}')。[0066]s2,调用pca训练函数对已添加的数据进行训练,生成特征向量矩阵,得到训练结果,输出如表2所示的训练结果,具体实现代码如下:[0067]selectmadlib.pca_train([0068]'jqxx.jqxx_shpr_zz',‑‑原始表[0069]‑‑sourcetable[0070]'jqxx.result_table_shpr_zz',‑‑输出表[0071]‑‑outputtable[0072]'mobile',‑‑源表id列[0073]‑‑rowidofsourcetable‑‑主成分个数)。[0074]s3,调用pca投影函数对上述训练结果进行投影处理,最终得到第二维度(3个维度)对应的降维后的数据,上述降维后的数据如表3所示,具体实现代码如下:[0075]selectmadlib.pca_project([0076]'jqxx.jqxx_shpr_zz',[0077]'jqxx.result_table_shpr_zz',[0078]'jqxx.out_table_shpr_zz',[0079]'mobile',[0080]'jqxx.residual_table_shpr_zz',[0081]'jqxx.result_summary_table_shpr_zz')。[0082]表2[0083][0084]表3[0085]row_idrow_vec1{3.29177676722938,-0.109192661697066,0.65027320246043}2{-0.833010395779005,0.0624998438474048,0.496073569262864}3{3.45713701219417,-0.0182366253911953,-0.280213936353739}4{-2.21222162912753,-1.16316894886941,1.30735249257714}5{-1.04652026547193,-2.75432751429412,-1.33946918701219}6{-1.67962629587755,1.54985327029896,0.118916372191323}7{-0.977535193166934,2.43257263610243,-0.952932513121798}[0086]可选的,上述标准化处理可以但不限于为归一化处理,对上述降维后的数据进行归一化处理,得到如表4所示的目标格式数据。[0087]表4[0088]row_idrow_vec1{0.970832636383322,0.5099644828125,0.248252194389862}2{0.243274648969286,0.543065660889226,0.306510608391326}3{1,0.527500204277838,0.599801052399269}4{0,0.306764834349678,0}5{0.205614327370166,0,1}6{0.0939427838218074,0.829817551869399,0.44900498191862}7{0.217782383171432,1,0.853961951093599}[0089]可选的,采用madlib的kmeanspp函数对上述目标格式数据进行上述kmeans聚类处理,得到上述聚类后数据,其中,可以但不限于将上述目标格式数据聚类为5类。[0090]可选的,对上述目标格式数据进行上述kmeans聚类处理,例如,将上述目标格式数据聚类为5类,得到上述聚类后数据,即利用kmeans聚类算法,选择5个聚类中心,将降维后的数据进行聚类计算,将每个数据聚类到上述5个聚类中心中距离最近的聚类中心去,计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心,重复迭代20000次,最终得到上述聚类后数据,具体实现代码如下:[0091]selectmadlib.kmeanspp([0092]'jqxx.t_source_change_nor_cnee_zz',[0093]‑‑源数据表名'row_vec',[0094]‑‑包含数据点的列名5,[0095]‑‑中心点个数'madlib.squared_dist_norm2',[0096]‑‑距离函数'madlib.avg',[0097]‑‑聚合函数20000,[0098]‑‑迭代次数0.00000001‑‑停止迭代条件)。[0099]作为一种可选的实施例,在根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值之后,上述方法还包括:[0100]步骤s402,根据每个上述电话号码确定对应的敏感度评分值生成敏感度评分表格,其中,上述敏感度评分表格包括:发件敏感度数据表格和收件敏感度数据表格;[0101]步骤s404,在接收到敏感度检索请求时,确定上述敏感度检索请求中携带的至少一个上述电话号码;[0102]步骤s406,从上述敏感度评分表格中检索得到与至少一个上述电话号码对应的上述敏感度评分值。[0103]可选的,根据每个上述电话号码确定对应的敏感度评分值生成如表5所示的敏感度评分表格。在敏感度评分表格计算完成后,输入电话号码进行敏感度评分和明细检索,可直观快速的进行敏感行为的研判。[0104]表5[0105]电话号码评分值1899876522244189987643528118998765201441899876421061189987641534318998763451211899876452361[0106]作为一种可选的实施例,图4是根据本发明实施例的一种可选的敏感度评分查询的流程图,如图4所示,该过程包括:输入电话号码,在接收到电话号码后解析请求参数;将解析后的请求参数封装为sql查询语句,分别查询发件数据敏感度评分及明细、收件数据敏感度评分及明细,将查询结果进行封装处理,并以json格式返回,得到返回结果;对上述返回结果进行解析处理,在控制台展示返回结果中该电话号码对应的发件数据敏感度评分及明细、收件数据敏感度评分及明细。[0107]作为一种可选的实施例,图5是根据本发明实施例的另一种可选的快递数据的敏感度计算方法的流程图,如图5所示,上述根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,包括:[0108]步骤s502,根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,得到第一排序结果;[0109]步骤s504,对上述聚类后数据中的每一类数据进行二次kmeans聚类处理,得到二次聚类后数据;[0110]步骤s506,根据欧式聚类算法对上述二次聚类后数据中每一类数据的质心进行排序,得到第二排序结果;[0111]步骤s508,根据基于上述第一排序结果确定的基础分值和上述第二排序结果,为每个上述电话号码确定对应的上述敏感度评分值。[0112]可选的,根据欧式聚类算法对上述聚类后数据中每一类数据的质心(即每一个聚类中心到原点的距离)进行排序,得到第一排序结果,基于上述第一排序结果确定上述基础分值,例如,对上述聚类后数据中的5个质心进行排序处理,即得到上述第一排序结果,基于上述第一排序结果设定5个基础分值0、20、40、60、80,分别与排序后的5个质心一一对应。[0113]可选的,对上述聚类后数据中的每一类数据进行二次kmeans聚类处理,得到二次聚类后数据,包括:对上述聚类后的数据进行归一化处理,对归一化处理后的每一类数据进行二次聚类处理,例如,将归一化处理后的每一类数据都聚类为20个类,最终得到100个类的数据,即为上述二次聚类后数据。[0114]可选的,根据欧式聚类算法对上述二次聚类后数据(即上述100个类的数据)中每一类数据的质心(即每一个聚类中心到原点的距离)进行排序,得到第二排序结果,基于上述第二排序结果和上述5个基础分值0、20、40、60、80,为每个电话号码确定对应的敏感度评分值,其中,上述敏感度评分值的取值范围为0-100。[0115]作为一种可选的实施例,图6是根据本发明实施例的另一种可选的快递数据的敏感度计算方法的流程图,如图6所示,以快递数据表作为数据来源,获取发件数据和收件数据在多个维度下的当前发生次数,根据维度对上述当前发生次数进行整合处理,得到整合数据,对上述整合数据进行格式化处理,得到处理后的整合数据,其中,上述处理后的整合数据为8个维度的数据;通过pca算法对上述处理后的整合数据进行降维处理,将上述处理后的整合数据由8个维度降至3个维度,得到降维后的数据;对上述降维后的数据进行标准化处理,得到目标格式数据;对上述目标格式数据进行上述kmeans聚类处理,将上述目标格式数据重新聚类为5个类,得到聚类后数据;对上述聚类后数据再次进行聚类处理,将每一个上述类进一步聚类为20个类,将上述聚类后数据重新聚类到100个类,得到二次聚类后数据;根据欧式聚类算法对上述二次聚类后数据中每一类数据的质心进行排序,根据排序结果为每个上述电话号码确定对应的上述敏感度评分值;根据多个上述敏感度评分值生成敏感度评分表格,其中,上述敏感度评分表格用于记录每个电话号码对应的敏感度评分值及明细。[0116]本发明实施例至少可以实现如下技术效果:针对计算出来的敏感度数据,用户可以直接进行电话号码检索,直观的给出敏感度系数供用户参考;可以增加办案人员对敏感人员的信息查询效率,同时可支持提供不同种类的案件在侦办时所需要参考的维度范围,应用范围更广泛。[0117]作为一种可选的实施例,在获取快递数据在多个第一维度下的当前发生次数之前,上述方法还包括:[0118]步骤s602,以存储上述快递数据的快递数据表作为数据来源,抽取得到多个上述第一维度;其中,上述第一维度包括:姓名模糊、地址模糊、频换姓名、频换地址、重点关注地区、非号码归属地收发快递、重点关注物品、重点关注人群。[0119]可选的,上述姓名模糊可以但不限于包括:先生、女士、同学、经理、哥、大哥、姐、大姐。[0120]可选的,上述地址模糊可以但不限于包括:路口、超市、商场、广场、图书馆、酒店(不包含xx室、xx房间)等信息,或者截取详细地址中的部分信息,例如地址长度小于5位。[0121]可选的,上述频换姓名可以但不限于包括:收发件数据中频繁的更换收发件姓名次数大于预定频次(如2次)。[0122]可选的,上述频换地址可以但不限于包括:收发件数据中频繁的更换收发件地址次数大于预定频次(如2次)。[0123]可选的,上述重点关注地区可以理解为涉及到不同时期重点关注的地区的快递数据。[0124]可选的,上述非号码归属地收发快递可以理解为收件或发件的电话号码的注册地不在收件地或发件地。[0125]可选的,上述重点关注物品可以但不限于包括:侦办制假酒专题、可关注酒瓶、酒盖、标签等物品,等等。[0126]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。[0127]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。[0128]实施例2[0129]在本实施例中还提供了一种快递数据的敏感度计算装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”“装置”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。[0130]根据本发明实施例,还提供了一种用于实施上述快递数据的敏感度计算方法的装置实施例,图7是根据本发明实施例的一种快递数据的敏感度计算装置的结构示意图,如图7所示,上述快递数据的敏感度计算装置,包括:第一获取模块700、第二获取模块702、聚类模块704、确定模块706,其中:[0131]上述第一获取模块700,用于获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;[0132]上述第二获取模块702,用于根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;[0133]上述聚类模块704,用于对上述整合数据进行kmeans聚类处理,得到聚类后数据;[0134]上述确定模块706,用于根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数。[0135]需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。[0136]此处需要说明的是,上述第一获取模块700、第二获取模块702、聚类模块704、确定模块706对应于实施例1中的步骤s102至步骤s108,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。[0137]需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。[0138]上述的快递数据的敏感度计算装置还可以包括处理器和存储器,上述第一获取模块700、第二获取模块702、聚类模块704、确定模块706等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。[0139]在一种可选的实施例中,上述聚类模块704,包括:第一获取子模块,用于按照预定数据范围对上述整合数据进行数据格式处理,得到处理后整合数据;第二获取子模块,用于采用降维算法对上述处理后整合数据进行降维处理,得到第二维度对应的降维后的数据;第三获取子模块,用于对上述降维后的数据进行标准化处理,得到目标格式数据;第一聚类子模块,用于对上述目标格式数据进行上述kmeans聚类处理,得到上述聚类后数据。[0140]处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。[0141]根据本技术实施例,还提供了一种非易失性存储介质的实施例。可选的,在本实施例中,上述非易失性存储介质包括存储的程序,其中,在上述程序运行时控制上述非易失性存储介质所在设备执行上述任意一种快递数据的敏感度计算方法。[0142]可选的,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述非易失性存储介质包括存储的程序。[0143]可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;对上述整合数据进行kmeans聚类处理,得到聚类后数据;根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数。[0144]可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:分别统计上述发件数据在每个上述第一维度下的第一发生次数,以及上述收件数据在每个上述第一维度下的第二发生次数。[0145]可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:对每个上述第一维度下所有的上述第一发生次数进行整合处理,以及每个上述第一维度下所有的上述第二发生次数进行整合处理,得到上述整合数据。[0146]可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:按照预定数据范围对上述整合数据进行数据格式处理,得到处理后整合数据;采用降维算法对上述处理后整合数据进行降维处理,得到第二维度对应的降维后的数据;对上述降维后的数据进行标准化处理,得到目标格式数据;对上述目标格式数据进行上述kmeans聚类处理,得到上述聚类后数据。[0147]可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:根据每个上述电话号码确定对应的敏感度评分值生成敏感度评分表格,其中,上述敏感度评分表格包括:发件敏感度数据表格和收件敏感度数据表格;在接收到敏感度检索请求时,确定上述敏感度检索请求中携带的至少一个上述电话号码;从上述敏感度评分表格中检索得到与至少一个上述电话号码对应的上述敏感度评分值。[0148]可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,得到第一排序结果;对上述聚类后数据中的每一类数据进行二次kmeans聚类处理,得到二次聚类后数据;根据欧式聚类算法对上述二次聚类后数据中每一类数据的质心进行排序,得到第二排序结果;根据基于上述第一排序结果确定的基础分值和上述第二排序结果,为每个上述电话号码确定对应的上述敏感度评分值。[0149]可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:以存储上述快递数据的快递数据表作为数据来源,抽取得到多个上述第一维度;其中,上述第一维度包括:姓名模糊、地址模糊、频换姓名、频换地址、重点关注地区、非号码归属地收发快递、重点关注物品、重点关注人群。[0150]根据本技术实施例,还提供了一种处理器的实施例。可选的,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种快递数据的敏感度计算方法。[0151]根据本技术实施例,还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有上述任意一种的快递数据的敏感度计算方法步骤的程序。[0152]可选的,上述计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;对上述整合数据进行kmeans聚类处理,得到聚类后数据;根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数。[0153]根据本技术实施例,还提供了一种电子设备的实施例,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为运行上述计算机程序以执行上述任意一种的快递数据的敏感度计算方法。[0154]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。[0155]在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。[0156]在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。[0157]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0158]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。[0159]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个非易失性存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。[0160]以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域:
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页12当前第1页12
技术特征:1.一种快递数据的敏感度计算方法,其特征在于,包括:获取快递数据在多个第一维度下的当前发生次数,其中,所述快递数据包括:发件数据和收件数据,每个所述快递数据对应一个电话号码;根据所述第一维度对所述当前发生次数进行整合处理,得到整合数据;对所述整合数据进行kmeans聚类处理,得到聚类后数据;根据欧式聚类算法对所述聚类后数据中每一类数据的质心进行排序,为每个所述电话号码确定对应的敏感度评分值,其中,所述敏感度评分值用于指示所述电话号码的使用者的敏感系数。2.根据权利要求1所述的方法,其特征在于,所述获取快递数据在多个第一维度下的当前发生次数,包括:分别统计所述发件数据在每个所述第一维度下的第一发生次数,以及所述收件数据在每个所述第一维度下的第二发生次数;根据所述第一维度对所述当前发生次数进行整合处理,得到整合数据,包括:对每个所述第一维度下所有的所述第一发生次数进行整合处理,以及每个所述第一维度下所有的所述第二发生次数进行整合处理,得到所述整合数据。3.根据权利要求1所述的方法,其特征在于,所述对所述整合数据进行kmeans聚类处理,得到聚类后数据,包括:按照预定数据范围对所述整合数据进行数据格式处理,得到处理后整合数据;采用降维算法对所述处理后整合数据进行降维处理,得到第二维度对应的降维后的数据;对所述降维后的数据进行标准化处理,得到目标格式数据;对所述目标格式数据进行所述kmeans聚类处理,得到所述聚类后数据。4.根据权利要求1所述的方法,其特征在于,在根据欧式聚类算法对所述聚类后数据中每一类数据的质心进行排序,为每个所述电话号码确定对应的敏感度评分值之后,所述方法还包括:根据每个所述电话号码确定对应的敏感度评分值生成敏感度评分表格,其中,所述敏感度评分表格包括:发件敏感度数据表格和收件敏感度数据表格;在接收到敏感度检索请求时,确定所述敏感度检索请求中携带的至少一个所述电话号码;从所述敏感度评分表格中检索得到与至少一个所述电话号码对应的所述敏感度评分值。5.根据权利要求1所述的方法,其特征在于,所述根据欧式聚类算法对所述聚类后数据中每一类数据的质心进行排序,为每个所述电话号码确定对应的敏感度评分值,包括:根据欧式聚类算法对所述聚类后数据中每一类数据的质心进行排序,得到第一排序结果;对所述聚类后数据中的每一类数据进行二次kmeans聚类处理,得到二次聚类后数据;根据欧式聚类算法对所述二次聚类后数据中每一类数据的质心进行排序,得到第二排序结果;根据基于所述第一排序结果确定的基础分值和所述第二排序结果,为每个所述电话号
码确定对应的所述敏感度评分值。6.根据权利要求1至5中任意一项所述的方法,其特征在于,在获取快递数据在多个第一维度下的当前发生次数之前,所述方法还包括:以存储所述快递数据的快递数据表作为数据来源,抽取得到多个所述第一维度;其中,所述第一维度包括:姓名模糊、地址模糊、频换姓名、频换地址、重点关注地区、非号码归属地收发快递、重点关注物品、重点关注人群。7.一种快递数据的敏感度计算装置,其特征在于,包括:第一获取模块,用于获取快递数据在多个第一维度下的当前发生次数,其中,所述快递数据包括:发件数据和收件数据,每个所述快递数据对应一个电话号码;第二获取模块,用于根据所述第一维度对所述当前发生次数进行整合处理,得到整合数据;聚类模块,用于对所述整合数据进行kmeans聚类处理,得到聚类后数据;确定模块,用于根据欧式聚类算法对所述聚类后数据中每一类数据的质心进行排序,为每个所述电话号码确定对应的敏感度评分值,其中,所述敏感度评分值用于指示所述电话号码的使用者的敏感系数。8.根据权利要求7所述的装置,其特征在于,所述聚类模块,包括:第一获取子模块,用于按照预定数据范围对所述整合数据进行数据格式处理,得到处理后整合数据;第二获取子模块,用于采用降维算法对所述处理后整合数据进行降维处理,得到第二维度对应的降维后的数据;第三获取子模块,用于对所述降维后的数据进行标准化处理,得到目标格式数据;第一聚类子模块,用于对所述目标格式数据进行所述kmeans聚类处理,得到所述聚类后数据。9.一种非易失性存储介质,其特征在于,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行权利要求1至6中任意一项所述的快递数据的敏感度计算方法。10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任意一项所述的快递数据的敏感度计算方法。
技术总结本发明公开了一种快递数据的敏感度计算方法、装置、存储介质及设备。其中,该方法包括:获取快递数据在多个第一维度下的当前发生次数,其中,上述快递数据包括:发件数据和收件数据,每个上述快递数据对应一个电话号码;根据上述第一维度对上述当前发生次数进行整合处理,得到整合数据;对上述整合数据进行KMeans聚类处理,得到聚类后数据;根据欧式聚类算法对上述聚类后数据中每一类数据的质心进行排序,为每个上述电话号码确定对应的敏感度评分值,其中,上述敏感度评分值用于指示上述电话号码的使用者的敏感系数。本发明解决了由于现有技术中通过快递逐个安检的形式进行违法快递排查,造成的耗费大量的人力物力,排查效率较低的技术问题。较低的技术问题。较低的技术问题。
技术研发人员:谢少飞 张鹏飞 喻波 王志海 安鹏 刘旺
受保护的技术使用者:北京明朝万达科技股份有限公司
技术研发日:2022.01.24
技术公布日:2022/7/5