敏感信息检测方法、装置、电子设备及计算机可读存储介质【
技术领域:
:】1.本技术涉及信息安全
技术领域:
:,尤其涉及一种敏感信息检测方法、装置、电子设备及计算机可读存储介质。
背景技术:
::2.随着互联网技术的发展,通过互联网存储和传输的数据越来越多。在互联网存储和传输的数据中,可能涉及个人隐私、财产安全或信息安全的敏感信息,敏感信息的泄露将对相关个人、企业或组织机构造成严重的损失。3.相关技术中,通常采用正则表达式匹配的方式,来实现对敏感信息的检测。正则表达式匹配的特点,就是只有一层匹配机制,采用正则表达式对待检测内容按字符一个一个匹配,而且是贪婪匹配(即最大长度匹配),对任何待检测内容都需要消耗同样的计算量。要实现对敏感信息的全面检测,又要实现一定的检测精度,就不可避免的需要添加更多、更为复杂的正则表达式。而正则表达式匹配的规则越多、规则越复杂,检测的性能就越差。4.因此,相关技术采用正则表达式匹配对敏感信息检测的方式,在检测性能和精度上都存在一定的问题,无法兼顾检测性能和精度,尤其在对比较复杂的内容进行敏感信息检测时,检测性能和精度都较差。技术实现要素:5.本技术的多个方面提供一种敏感信息检测方法、装置、电子设备及计算机可读存储介质,用以提高敏感信息检测的性能和精度。6.本技术的一方面,提供一种敏感信息检测方法,包括:7.获取待检测信息;8.对所述待检测信息进行敏感信息类型匹配;9.针对匹配到的目标敏感信息类型,基于所述目标敏感信息类型对应的精度匹配规则,对所述待检测信息中所述目标敏感信息类型对应的目标数据进行精度匹配;10.响应于精度匹配通过,基于所述目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验;11.响应于数据校验通过,确定所述目标数据为敏感信息。12.本技术的另一方面,提供一种敏感信息检测装置,包括:13.获取模块,用于获取待检测信息;14.类型匹配模块,用于对所述待检测信息进行敏感信息类型匹配;15.精度匹配模块,用于针对匹配到的目标敏感信息类型,基于所述目标敏感信息类型对应的精度匹配规则,对所述待检测信息中所述目标敏感信息类型对应的目标数据进行精度匹配;16.数据校验模块,用于响应于精度匹配通过,基于所述目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验;17.确定模块,用于响应于数据校验通过,确定所述目标数据为敏感信息。18.本技术的又一方面,提供一种电子设备,所述电子设备包括:19.一个或多个处理器;20.存储装置,用于存储一个或多个程序,21.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述一方面所提供的敏感信息检测方法。22.本技术的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面所提供的敏感信息检测方法。23.由上述技术方案可知,在本技术一些实施例中,提供了一种对敏感信息进行分层检测处理的方法,通过获取待检测信息,并对该待检测信息进行敏感信息类型匹配,针对匹配到的目标敏感信息类型,基于该目标敏感信息类型对应的精度匹配规则,对待检测信息中该目标敏感信息类型对应的目标数据进行精度匹配,响应于精度匹配通过,基于目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验,响应于数据校验通过,确定所述目标数据为敏感信息。由此,本技术实现了对敏感信息的分层检测处理,首先对待检测信息进行敏感信息类型匹配,匹配到的敏感信息类型后,再基于匹配到的目标敏感信息类型对应的精度匹配规则和校验规则,对目标敏感信息类型对应的目标数据进行精度匹配和数据校验,可以实现对敏感信息快速、准确、全面的检测,能够全面兼顾检测性能、精度和敏感信息类型的需求,有效提升敏感信息检测的精度、性能和全面性,避免了相关技术采用正则表达式匹配对敏感信息检测的方式存在的性能及精度的限制。24.另外,采用本技术所提供的技术方案,无需将待检测信息与繁多、复杂的正则表达式逐一进行匹配,相关技术采用正则表达式匹配对敏感信息检测的方式,能够在实现对敏感信息的全面检测的基础上,减少匹配的计算量,从而节省计算资源,提高敏感信息的检测效率。25.另外,采用本技术所提供的技术方案,针对涉及多种敏感信息类型、内容复杂的内容进行敏感信息检测时,能够针对涉及的敏感信息类型进行并行精度匹配和数据校验,从而进一步提高了敏感信息的检测效率和检测效果。【附图说明】26.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。27.图1为本技术一实施例提供的敏感信息检测方法的流程示意图;28.图2为本技术另一实施例提供的敏感信息检测方法的流程示意图;29.图3为本技术一实施例提供的敏感信息检测装置的结构示意图;30.图4为本技术另一实施例提供的敏感信息检测装置的结构示意图;31.图5为适于用来实现本技术实施方式的示例性计算机系统/服务器12的框图。【具体实施方式】32.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其它实施例,都属于本技术保护的范围。33.需要说明的是,本技术实施例中所涉及的终端可以包括但不限于手机、个人数字助理(personaldigitalassistant,pda)、无线手持设备、平板电脑(tabletcomputer)、个人电脑(personalcomputer,pc)、mp3播放器、mp4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。34.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。35.如
背景技术:
:中所述,相关技术采用正则表达式匹配对敏感信息检测的方式,在检测性能和精度上都存在一定的问题,无法兼顾检测性能和精度,尤其在对比较复杂的内容进行敏感信息检测时,检测性能和精度都较差。36.因此,亟需提供一种敏感信息检测方法、装置、电子设备及计算机可读存储介质,用以提高敏感信息检测的性能和精度。37.本技术的设计思想在于解决相关技术采用正则表达式匹配对敏感信息检测存在的检测性能和精度较差的问题。本技术提供了一种对敏感信息进行分层检测处理的方法,通过对该待检测信息进行敏感信息类型匹配,针对匹配到的目标敏感信息类型,再基于该目标敏感信息类型对应的精度匹配规则和校验规则,对待检测信息中该目标敏感信息类型对应的目标数据进行精度匹配和数据校验,根据精度匹配和数据校验结果确定目标数据为敏感信息。38.本技术实施例可应用于互联网站、服务器、客户端等各种电子设备。39.图1为本技术一实施例提供的敏感信息检测方法的流程示意图,如图1所示。40.101,获取待检测信息。41.其中的待检测信息,可以为客户端发送的信息,也可以是服务器发送给客户端的信息,或者,还可以是接口调用端通过应用程序编程接口(api)从服务器调用的数据,等等,本技术对此不做限制。42.102,对所述待检测信息进行敏感信息类型匹配。43.其中,匹配到的敏感信息类型称为目标敏感信息类型,目标敏感信息类型可以是一个,也可以是多个,本技术对此不做限制。44.103,针对匹配到的目标敏感信息类型,基于所述目标敏感信息类型对应的精度匹配规则,对所述待检测信息中目标敏感信息类型对应的目标数据进行精度匹配。45.其中,目标数据为待检测信息中与目标敏感信息类型对应的数据,若匹配到的目标敏感信息类型为多个,则对应的目标数据为多个。46.其中,预先针对各敏感信息类型设置了对应的精度匹配规则,只有在目标数据满足目标敏感信息类型对应的精度匹配规则时,该目标数据才可能属于该目标敏感信息类型的数据。47.其中,若匹配到的目标敏感信息类型为多个,则分别针对各目标敏感信息类型及其对应的目标数据执行步骤103~105。48.104,响应于精度匹配通过,基于所述目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验。49.其中,预先针对各敏感信息类型设置了对应的校验规则,只有在目标数据通过数据校验时,该目标数据才属于正确的目标敏感信息类型的数据。50.105,响应于数据校验通过,确定所述目标数据为敏感信息。51.需要说明的是,101~105的执行主体的部分或全部可以为位于终端的应用,或者还可以为设置终端的应用中的插件或软件开发工具包(softwaredevelopmentkit,sdk)等功能单元,或者还可以为位于网络侧服务器中的应用,本技术实施例对此不进行特别限定。52.可以理解的是,所述应用可以是安装在终端上的本地程序(nativeapp),或者还可以是终端上的浏览器的一个网页程序(webapp),本技术实施例对此不进行限定。53.这样,本技术实现了对敏感信息的分层检测处理,首先对待检测信息进行敏感信息类型匹配,匹配到的敏感信息类型后,再基于匹配到的目标敏感信息类型对应的精度匹配规则和校验规则,对目标敏感信息类型对应的目标数据进行精度匹配和数据校验,可以实现对敏感信息快速、准确、全面的检测,能够全面兼顾检测性能、精度和敏感信息类型的需求,有效提升敏感信息检测的精度、性能和全面性,避免了相关技术采用正则表达式匹配对敏感信息检测的方式存在的性能及精度的限制。并且,无需将待检测信息与繁多、复杂的正则表达式逐一进行匹配,相关技术采用正则表达式匹配对敏感信息检测的方式,能够在实现对敏感信息的全面检测的基础上,减少匹配的计算量,从而节省计算资源,提高敏感信息的检测效率。另外,针对涉及多种敏感信息类型、内容复杂的内容进行敏感信息检测时,能够针对涉及的敏感信息类型进行并行精度匹配和数据校验,从而进一步提高了敏感信息的检测效率和检测效果。54.可选地,在其中一些实现方式中,在步骤102中,可以对待检测信息进行类型标签提取,然后,将提取到的类型标签和该提取到的类型标签在待检测信息中对应的数据格式,与预设敏感信息类型的数据特征进行匹配,匹配到的敏感信息类型即为目标敏感信息类型。55.例如,在一种具体实现中,可以依次识别待检测信息中各字符的数据类型,将待检测信息中各字符识别为数字、英文字母、中文字符及其余字符、不可见字符等数据类型。其中的不可见字符是指计算机显示时不显示在屏幕上的字符,例如空格、换行等字符,然后提取用于表示数据类型的类型标签,进而,将提取到的类型标签和该提取到的类型标签在待检测信息中对应的数据格式与预设敏感信息类型的数据特征进行匹配。56.其中的数据格式,例如可以包括数据长度、连续多个类型标签之间的顺序等,本技术实施例对词不做限制,可以根据需求设置、或进一步更新。57.其中,预设敏感信息类型的数据特征,用于表示预先设置的各种敏感信息类型所需具备的特征,例如,敏感信息类型为手机号时,对应的敏感信息类型的数据特征为:11位连续的数字;敏感信息类型为身份证号时,对应的敏感信息类型的数据特征为:18位连续的数字;敏感信息类型为地址时,对应的敏感信息类型的数据特征为:包含省市县区等关键中5])|([7][1])|([8][1-2])|([9][1]))\\d{4}(19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9xx])\\w。[0068]其中,上述表达式中的首尾增加了“\\w”,\\w”,表示匹配任何非单词字符,即除英文字母和数字之外的其他字符,这样可以排除掉身份证号码恰巧出现在一堆无序乱码或数字码中间的情况。上述表达式中对我国所有省、直辖市、自治区的身份证号码前两位进行了穷举匹配,且对出出生日期期的格式进行了匹配,以此提高匹配的准确率和精度。[0069]例如,在一个具体例子中,目标敏感信息类型为手机号时,对应的精度匹配规则的一种表达式可以为:[0070]\\w([1](([3][0-9])|([4][5-9])|([5][0-3,5-9])|([6][5,6])|([7][0-8])|([8][0-9])|([9][1,8,9]))[0-9]{8})\\w。[0071]其中,上述表达式中的首尾也增加了“\\w”,避免目标字符串恰好出现在一堆无序的乱码和数字码中间,在我国,手机号码的位数为11位,第一位为1,第二位和第三位数字与运营商运营的号段有关,例如,中国移动运营商的第二位和第三位为38、39,中国联通运营商的第二位和第三位为30、31,等等,上述表达式对国内几家运营商现有的号段进行了穷举匹配,而对最后的8位数字没有做要求。[0072]例如,在一个具体例子中,目标敏感信息类型为电子邮箱时,对应的精度匹配规则的一种表达式可以为:[0073]\\w[\\w-]+@([a-z0-9-_]+\\.)+[a-z]{2,3}\\w。[0074]其中,电子邮箱地址中间都会带有@符号(数据类型为其余字符),@符号之前为邮箱名称,一般要求由大小写字母、数字、下划线以及中横线组成,上述表达式中的“\\w”可以用于匹配英文字母、数字和下划线(数据类型为其余字符),@符号后面的一般为服务商的服务名,例如qq、126、hotmail等,目前常用电子邮箱多为英文字母和数字组成,另外,电子邮箱最后的后缀一般为机构或者公司的简称标识,由2-3位的小字字母组成。[0075]例如,在一个具体例子中,目标敏感信息类型为银行卡号时,对应的精度匹配规则的一种表达式可以为:[0076]\\w(3|4|5|6|9)\\d{15,18}\\w。[0077]其中,现有中国银行卡的开头一般是3、4、5、6、9这几位数字,位数是16-19位不等。[0078]例如,在一个具体例子中,目标敏感信息类型为出生日期时,出生日期的数据格式确定,且出生日期中对应的年份、月份和日期都有相应的区间限制,可以据此设置出生日期对应的精度匹配规则。[0079]例如,在一个具体例子中,目标敏感信息类型为地址时,省、市、县等具有对应的范围、以及上下级地址之间满足一定的归属关系,可以据此设置相应的精度匹配规则。[0080]本技术实施例仅对几种敏感信息类型对应的精度匹配规则进行示例性说明,不构成对敏感信息类型及其对应的精度匹配规则的限制,对其他敏感信息类型对应的精度匹配规则可以根据实际需求设置,不再特别说明。另外,各敏感信息类型对应的精度匹配规则也可以通过其他方式来表示。[0081]可选地,在其中一些实现方式中,在步骤104中,各敏感信息类型对应的校验规则也可以预先设置,用于验证某一数据是否属于正确的目标敏感信息类型的数据。[0082]其中的校验规则,可以是基于待验证数据自身和预设算法的校验规则,例如,通过预设算法对待验证数据中的一部分数据进行计算,确认计算结果是否与待验证数据中的另一部分数据一致;或者,也可以是确认待验证数据或其中部分数据是否符合预先设置的规则的校验规则;等等,本技术对此不做限制。[0083]例如,在一个具体例子中,目标敏感信息类型为身份证号时,18位身份证号的最后一位数字是将前面17位数字按照一定算法计算得到的校验数字,可根据此设置对应的校验规则。在步骤104中,可以即将目标数据中的前17位数分别乘以不同的系数,得到17个相乘结果,从第一位到第十七位的系数分别为:7、9、10、5、8、4、2、1、6、3、7、9、10、5、8、4、2,然后将这17个相乘结果相加,得到和,将和除以11,得到余数,该余数只可能有为0、1、2、3、4、5、6、7、8、9或10,这十一个数字分别对应的身份证号码最后一位数字为1、0、x、9、8、7、6、5、4、3、2,假设目标数据得到的余数为2,若该目标数据的最后一位为x,则目标数据通过数据校验,否则,未通过数据校验;同样的,假设目标数据得到的余数为10,若目标数据的最后一位为2,则目标数据通过数据校验,否则,未通过数据校验;等等,依此类推。[0084]例如,在一个具体例子中,目标敏感信息类型为手机号时,手机号中的第4位至第7位用于表示归属的地区范围,可以通过预先设置的、归属于各地区范围的数字对目标数据中的第4位至第7位进行验证;如验证通过,则目标数据通过数据校验,否则,目标数据未通过数据校验。[0085]例如,在一个具体例子中,目标敏感信息类型为电子邮箱时,由于有些电子邮箱地址会出现在超文本传输协议(hypertexttransferprotocol,http)请求的统一资源定位符(uniformresourcelocator,url)路径中,电子邮箱的校验规则可以为判断目标数据的开头和结尾的字符是否为“/”,若是,则目标数据未通过数据校验,否则,目标数据通过数据校验。[0086]例如,在一个具体例子中,目标敏感信息类型为银行卡号时,银行卡号的校验规则例如可以包括:第一校验规则和第二校验规则。在步骤104中,利用第一校验规则,采用用于校验是否为真实银行卡号的算法(例如luhn),从右到左给目标数据的字符串编号,最右边第一位是1,最右边第二位是2,最右边第三位是3,依此类推,从右往左遍历,对于遍历到的目标字符,假设为t,判断t的编号是否为奇数,若是,则计算结果为t,若否,则将t乘以2得到n,判断n是否为一位数(小于10),若是,则计算结果为n,否则,将n的个位数与十位数相加得到m,将m作为计算结果,然后将每一位字符的计算结果相加,得到s,最后判断s是否能够整除10,若是,则目标数据通过第一校验规则,否则未通过第一校验规则;将通过第一校验规则后的目标数据使用第二校验规则进行第二次校验,即从预设校验表中查找目标数据的前三位字符,所述预设校验表中记录了目前常见银行的银行卡开头三位数字,若查询得到,则目标数据通过第二校验规则,即数据校验通过,通过数据校验,否则未通过数据校验。[0087]本技术实施例仅对几种敏感信息类型对应的校验规则进行示例性说明,不构成对敏感信息类型及其对应的校验规则的限制,各敏感信息类型对应的校验规则可以根据需要实时更新,对其他敏感信息类型对应的校验规则可以根据实际需求设置,不再特别说明。[0088]可选地,在其中一些实现方式中,通过步骤105确定所述目标数据为敏感信息之后,还可以根据目标敏感信息类型所对应的脱敏规则,对该目标数据进行脱敏处理,其中的脱敏处理,例如可以是打码、替换为预设字符等等,本技术实施例对脱敏处理的具体方式不做限制。[0089]例如,在一些具体实现中,目标数据为手机号时,可以将该手机号中除第一位和最后四位外的其他位数替换为预设字符*,本技术实施例对此不做限制。[0090]基于本实施例,通过对目标数据进行脱敏处理,可以有效避免目标数据作为敏感信息泄露,有效保护敏感信息的安全。[0091]可选地,根据目标敏感信息类型所对应的脱敏规则,对该目标数据进行脱敏处理后,还可以记录对该待检测信息的脱敏处理方式,以便后续形成处理日志、对脱敏得到的信息进行恢复处理等。[0092]图2为本技术另一实施例提供的好友推荐方法的流程示意图。如图2所示,在图1所示实施例的基础上,在102中,[0093]201,获取待检测信息。[0094]202,对所述待检测信息进行敏感信息类型匹配。[0095]若匹配到敏感信息类型,以匹配到敏感信息类型作为目标敏感信息类型,执行步骤203;否则,若未匹配到敏感信息类型,执行步骤206。[0096]其中,匹配到的目标敏感信息类型可以是一个,也可以是多个,若匹配到的目标敏感信息类型为多个,则分别针对各目标敏感信息类型执行步骤203~205。[0097]203,针对匹配到的目标敏感信息类型,基于所述目标敏感信息类型对应的精度匹配规则,对待检测信息中目标敏感信息类型对应的目标数据进行精度匹配。[0098]响应于精度匹配通过,执行步骤204;否则,若精度匹配未通过,执行步骤206。[0099]204,基于所述目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验。[0100]响应于数据校验通过,执行步骤205;否则,若数据校验未通过,执行步骤206。[0101]205,确定所述目标数据为敏感信息。[0102]之后,不执行本实施例的后续流程。[0103]206,确定所述待检测信息中不存在敏感信息。[0104]需要说明的是,若通过步骤202匹配到的目标敏感信息类型为多个,则所有匹配到的目标敏感信息类型均满足精度匹配未通过或者数据校验通过之一时,才执行步骤206,确定所述待检测信息中不存在敏感信息。否则,只要有一个目标敏感信息类型数据校验通过,即确定对应的目标数据为敏感信息,不执行步骤206。[0105]本技术实施例可以用于对客户端或服务器传输的数据进行敏感信息检测,也可以用于对接口调用端通过api从服务器调用的数据进行敏感信息检测,本技术实施例对此不做限制。[0106]基于本技术实施例,对客户端或服务器传输的数据进行敏感信息检测,在检测到敏感信息时进行脱敏处理,可以有效避免造成敏感信息泄露风险。[0107]随着计算机技术和互联网技术的快速发展,企业对外提供应用服务越来越频繁,为构建良好的服务生态并节省应用开发成本,企业通过向合作方提供api的方式,方便合作方调用其应用生态内的软件或数据服务,而无需关注服务的设计与实现。api技术的出现使前端界面与后端服务器的数据交互更加便捷,因此被开发者广泛使用。实际应用中,与接口相关的信息安全问题在于接口调用端可能会私自大量调用接口数据,接口返回超出最小必要原则的敏感信息字段或高敏感级别字段未按规定脱敏等,造成敏感信息泄露风险。可以对接口调用端调用的接口数据进行敏感信息检测,在检测到敏感信息时进行脱敏处理,可以有效避免造成敏感信息泄露风险。[0108]本技术的技术方案,本技术实现了对敏感信息的分层检测处理,首先对待检测信息进行敏感信息类型匹配,匹配到的敏感信息类型后,再基于匹配到的目标敏感信息类型对应的精度匹配规则和校验规则,对目标敏感信息类型对应的目标数据进行精度匹配和数据校验,可以实现对敏感信息快速、准确、全面的检测,能够全面兼顾检测性能、精度和敏感信息类型的需求,有效提升敏感信息检测的精度、性能和全面性,避免了相关技术采用正则表达式匹配对敏感信息检测的方式存在的性能及精度的限制。[0109]另外,采用本技术所提供的技术方案,无需将待检测信息与繁多、复杂的正则表达式逐一进行匹配,相关技术采用正则表达式匹配对敏感信息检测的方式,能够在实现对敏感信息的全面检测的基础上,减少匹配的计算量,从而节省计算资源,提高敏感信息的检测效率。[0110]另外,采用本技术所提供的技术方案,针对涉及多种敏感信息类型、内容复杂的内容进行敏感信息检测时,能够针对涉及的敏感信息类型进行并行精度匹配和数据校验,从而进一步提高了敏感信息的检测效率和检测效果。[0111]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。[0112]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。[0113]图3为本技术一实施例提供的敏感信息检测装置的结构示意图。本技术实施例的敏感信息检测装置可用于实现本技术上述各敏感信息检测方法实施例。如图3所示,本实施例的敏感信息检测装置包括:获取模块301,类型匹配模块302,精度匹配模块303,数据校验模块304和确定模块305。其中:[0114]获取模块301,用于获取待检测信息。[0115]类型匹配模块302,用于对所述待检测信息进行敏感信息类型匹配。[0116]精度匹配模块303,用于针对匹配到的目标敏感信息类型,基于所述目标敏感信息类型对应的精度匹配规则,对所述待检测信息中所述目标敏感信息类型对应的目标数据进行精度匹配。[0117]数据校验模块304,用于响应于精度匹配通过,基于所述目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验。[0118]确定模块305,用于响应于数据校验通过,确定所述目标数据为敏感信息。[0119]可选地,在其中一些实现方式中,类型匹配模块302,具体用于:对所述待检测信息进行类型标签提取;将提取到的类型标签和在所述待检测信息中对应的数据格式与预设敏感信息类型的数据特征进行匹配。[0120]可选地,在其中一些实现方式中,所述预设敏感信息类型例如可以包括但不限于以下任意一项或多项:身份证号,手机号,银行卡号,车架号,出生日期,电子邮箱,地址,等等。[0121]图4为本技术另一实施例提供的敏感信息检测装置的结构示意图。如图4所示,在图3所示实施例的基础上,该实施例的敏感信息检测装置还可以包括:脱敏处理模块401,用于根据所述目标敏感信息类型所对应的脱敏规则,对所述目标数据进行脱敏处理。[0122]可选地,在其中一些实现方式中,确定模块305,还可用于:响应于未匹配到敏感信息类型,或者精度匹配未通过,或者数据校验未通过,确定所述待检测信息中不存在敏感信息。[0123]另外,本技术实施例还提供了一种电子设备,所述电子设备包括:[0124]一个或多个处理器;[0125]存储装置,用于存储一个或多个程序,[0126]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本技术上述任一实施例所述的敏感信息检测方法。[0127]图5示出了适于用来实现本技术实施方式的示例性计算机系统/服务器12的框图。图5显示的计算机系统/服务器12仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。[0128]如图5所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,存储装置或者系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。[0129]总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。[0130]计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。[0131]系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本技术各实施例的功能。[0132]具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本技术所描述的实施例中的功能和/或方法。[0133]计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口44进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。[0134]处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1~图2所对应的实施例任一实施例所提供的敏感信息检测方法。[0135]本技术另一实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图1~图2所对应的实施例任一实施例所提供的敏感信息检测方法。[0136]具体来说,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。[0137]计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。[0138]计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。[0139]可以以一种或多种程序设计语言或其组合来编写用于执行本技术操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。[0140]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。[0141]在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或页面组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。[0142]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0143]另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。[0144]上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一个计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。[0145]最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。当前第1页12当前第1页12
技术特征:1.一种敏感信息检测方法,其特征在于,包括:获取待检测信息;对所述待检测信息进行敏感信息类型匹配;针对匹配到的目标敏感信息类型,基于所述目标敏感信息类型对应的精度匹配规则,对所述待检测信息中所述目标敏感信息类型对应的目标数据进行精度匹配;响应于精度匹配通过,基于所述目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验;响应于数据校验通过,确定所述目标数据为敏感信息。2.根据权利要求1所述的方法,其特征在于,所述对所述待检测信息进行敏感信息类型匹配,包括:对所述待检测信息进行类型标签提取;将提取到的类型标签和在所述待检测信息中对应的数据格式与预设敏感信息类型的数据特征进行匹配。3.根据权利要求2所述的方法,其特征在于,所述预设敏感信息类型包括以下任意一项或多项:身份证号,手机号,银行卡号,车架号,出生日期,病案号,护照号,电子邮箱,地址。4.根据权利要求1~3任一所述的方法,其特征在于,所述确定所述目标数据为敏感信息之后,还包括:根据所述目标敏感信息类型所对应的脱敏规则,对所述目标数据进行脱敏处理。5.根据权利要求1~4任一所述的方法,其特征在于,还包括:响应于未匹配到敏感信息类型,或者精度匹配未通过,或者数据校验未通过,确定所述待检测信息中不存在敏感信息。6.一种敏感信息检测装置,其特征在于,包括:获取模块,用于获取待检测信息;类型匹配模块,用于对所述待检测信息进行敏感信息类型匹配;精度匹配模块,用于针对匹配到的目标敏感信息类型,基于所述目标敏感信息类型对应的精度匹配规则,对所述待检测信息中所述目标敏感信息类型对应的目标数据进行精度匹配;数据校验模块,用于响应于精度匹配通过,基于所述目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验;确定模块,用于响应于数据校验通过,确定所述目标数据为敏感信息。7.根据权利要求6所述的装置,其特征在于,所述类型匹配模块,具体用于:对所述待检测信息进行类型标签提取;将提取到的类型标签和在所述待检测信息中对应的数据格式与预设敏感信息类型的数据特征进行匹配。8.根据权利要求7所述的装置,其特征在于,所述预设敏感信息类型包括以下任意一项或多项:身份证号,手机号,银行卡号,车架号,出生日期,病案号,护照号,电子邮箱,地址。9.根据权利要求6~8任一所述的装置,其特征在于,还包括:脱敏处理模块,用于根据所述目标敏感信息类型所对应的脱敏规则,对所述目标数据进行脱敏处理。
10.根据权利要求6~9任一所述的装置,其特征在于,所述确定模块,还用于:响应于未匹配到敏感信息类型,或者精度匹配未通过,或者数据校验未通过,确定所述待检测信息中不存在敏感信息。11.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~5任一权利要求所述的方法。12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~5任一权利要求所述的方法。
技术总结本申请提供一种敏感信息检测方法、装置、电子设备及计算机可读存储介质。本申请通过获取待检测信息,并对所述待检测信息进行敏感信息类型匹配,之后,针对匹配到的目标敏感信息类型,基于所述目标敏感信息类型对应的精度匹配规则,对所述待检测信息中所述目标敏感信息类型对应的目标数据进行精度匹配;进而,响应于精度匹配通过,基于所述目标敏感信息类型对应的校验规则,对所述目标数据进行数据校验;响应于数据校验通过,确定所述目标数据为敏感信息,这样,可以提高敏感信息检测的性能和精度。度。度。
技术研发人员:李华君 祝君 姜帆 胡康
受保护的技术使用者:瑞数信息技术(上海)有限公司
技术研发日:2022.03.15
技术公布日:2022/7/4