1.本发明属于合同分析技术领域,特别涉及一种招标合同分析系统。
背景技术:2.智能电子合同文本分析系统不具备对多种不同种类的文本信息的检测及识别能力,目前还不满足不太层次及粒度的合同文本识别需求,不能及时处理相关公司业务合同在实时性上的问题,以上问题有待解决。
技术实现要素:3.有鉴于此,本发明提供了一种可以解决上述问题的招标合同分析系统。
4.一种招标合同分析系统,包括:
5.图像采集及预处理模块,用于采集合同图像并对所述采集合同图像进行预处理工作,输出图像集,其中,所述预处理工作包括图像去噪、边缘增强、roi提取及图像压缩;
6.印章检测及识别模块,用于对所述图像集进行印章检测并提取印章文本,输出印章图像和与所述印章图像相对应的印章文本信息;
7.字符检测及识别模块,用于对所述图像集进行字符检测并提取字符文本,输出字符文本图像和与所述字符文本图像相对应的字符文本信息;
8.数字检测及识别模块,用于对所述图像集进行数字检测并提取数字文本,输出数字文本图像和与所述数字文本图像相对应的数字文本信息。
9.进一步的,所述采集合同图像基于传统数字图像处理算法、深度学习算法或机器学习算法中的其中一种进行预处理工作。
10.进一步的,所述传统数字图像处理算法包括用于所述图像去噪的邻域平均法、中值滤波、低通滤波和傅里叶变换,用于所述边缘增强的基于梯度算子的边缘增强法、基于roberts算子的边缘增强法和基于sobel算子的边缘增强法,用于完成所述roi提取的基于harris角点检测和聚类的roi提取法,用于完成所述图像压缩的基本压缩法。
11.进一步的,所述招标合同分析系统还包括:
12.存储模块;
13.所述印章检测及识别模块输出印章图像和与所述印章图像相对应的印章文本信息后,将所述印章文本信息保存于存储模块中。
14.进一步的,所述字符检测及识别模块输出字符文本图像和与所述字符文本图像相对应的字符文本信息后,将所述字符文本信息保存于所述存储模块中。
15.进一步的,所述数字检测及识别模块输出数字文本图像和与所述数字文本图像相对应的数字文本信息后,将所述数字文本信息保存于所述存储模块中。
16.进一步的,所述字符检测及识别模块包括文字的检测及识别和字母的检测及识别。
17.进一步的,所述字符检测及识别模块通过按照二值化、闭运算、计算连通域、面积
筛选及区域排序的处理顺序与方式。
18.进一步的,所述数字检测及识别模块通过按照二值化、闭运算、计算连通域、面积筛选及区域排序的处理顺序与方式。
19.与现有技术相比,本发明提供的招标合同分析系统通过针对合同文本中的印章部分实现自动检测及识别,针对合同文本中的中英文字符的自动检测及识别,针对合同文本中的数字部分进行自动检测和识别,本系统一经部署,可提供7*24小时的不间断识别服务,这为及时处理相关公司业务在实时性上提供了强有力的保障;同时,系统具备极强的鲁棒性和准确率,能够高精度的完成各项检测及识别任务。
附图说明
20.图1为本发明提供的一种招标合同分析系统的结构示意图。
具体实施方式
21.以下对本发明的具体实施例进行进一步详细说明。应当理解的是,此处对本发明实施例的说明并不用于限定本发明的保护范围。
22.如图1所示,其为本发明提供的一种招标合同分析系统的结构示意图。一种招标合同分析系统100,包括:
23.图像采集及预处理模块10,用于采集合同图像并对所述采集合同图像进行预处理工作,输出图像集,其中,所述预处理工作包括图像去噪、边缘增强、roi提取及图像压缩;图像采集及预处理模块10的输入为由相关工作人员所上传的合同文本图像或pdf文档,输出为经过去噪、边缘增强、roi提取及图像压缩后的新的图像集。
24.印章检测及识别模块20,用于对所述图像集进行印章检测并提取印章文本,输出印章图像和与所述印章图像相对应的印章文本信息;识别校对公司业务合同的印章图像是否字迹不清晰或红印颜色浅等问题。
25.字符检测及识别模块30,用于对所述图像集进行字符检测并提取字符文本,输出字符文本图像和与所述字符文本图像相对应的字符文本信息;识别校对公司业务合同的字符文本图像(包括文字和字母)是否有错别字或使合同条款有歧义等问题。
26.数字检测及识别模块40,用于对所述图像集进行数字检测并提取数字文本,输出数字文本图像和与所述数字文本图像相对应的数字文本信息。识别校对公司业务合同的数字文本图像是否数字(比如费用金额等)错误等问题。
27.通过针对合同文本中的印章部分实现自动检测及识别,针对合同文本中的中英文字符的自动检测及识别,针对合同文本中的数字部分进行自动检测和识别,本系统一经部署,可提供7*24小时的不间断识别服务,这为及时处理相关公司业务在实时性上提供了强有力的保障;同时,系统具备极强的鲁棒性和准确率,能够高精度的完成各项检测及识别任务。
28.所述采集合同图像基于传统数字图像处理算法、深度学习算法或机器学习算法中的其中一种进行预处理工作。数字图像处理是指将图像信号转换成数字信号并利用计算机对其进行处理的过程,图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约
形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像,常用的图像处理方法有图像增强、复原、编码、压缩等;
29.深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步;
30.机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。需要注意的是,机器学习的目标是使学到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现很好。学到的函数适用于新样本的能力,称为泛化(generalization)能力。
31.通常学习一个好的函数,分为以下三步:
32.1、选择一个合适的模型,这通常需要依据实际问题而定,针对不同的问题和任务需要选取恰当的模型,模型就是一组函数的集合。
33.2、判断一个函数的好坏,这需要确定一个衡量标准,也就是我们通常说的损失函数(lossfunction),损失函数的确定也需要依据具体问题而定,如回归问题一般采用欧式距离,分类问题一般采用交叉熵代价函数。
34.3、找出“最好”的函数,如何从众多函数中最快的找出“最好”的那一个,这一步是最大的难点,做到又快又准往往不是一件容易的事情。常用的方法有梯度下降算法,最小二乘法等和其他一些技巧(tricks)。学习得到“最好”的函数后,需要在新样本上进行测试,只有在新样本上表现很好,才算是一个“好”的函数。
35.所述传统数字图像处理算法包括用于所述图像去噪的邻域平均法、中值滤波、低通滤波和傅里叶变换,用于所述边缘增强的基于梯度算子的边缘增强法、基于roberts算子的边缘增强法和基于sobel算子的边缘增强法,用于完成所述roi提取的基于harris角点检测和聚类的roi提取法,用于完成所述图像压缩的基本压缩法。
36.所述招标合同分析系统100还包括:
37.存储模块50;
38.所述印章检测及识别模块20输出印章图像和与所述印章图像相对应的印章文本信息后,将所述印章文本信息保存于存储模块50中。
39.所述字符检测及识别模块30输出字符文本图像和与所述字符文本图像相对应的字符文本信息后,将所述字符文本信息保存于所述存储模块50中。
40.所述数字检测及识别模块40输出数字文本图像和与所述数字文本图像相对应的数字文本信息后,将所述数字文本信息保存于所述存储模块50中。
41.分别将印章文本信息、字符文本信息和数字文本信息存储于存储模块50中,以备检查查询以及校对。
42.所述字符检测及识别模块30包括文字的检测及识别和字母的检测及识别。
43.所述字符检测及识别模块30通过按照二值化、闭运算、计算连通域、面积筛选及区域排序的处理顺序与方式。实现针对合同图像的文字和字母分割工作,为保证文字和字母分割部分具有较高的准确率及鲁棒性,考虑采用基于yolo模型的人工智能字符分割算法;对分割得到的各个单独的文字和字母个体,采用基于深度学习cnn的框架来完成针对单个文字和字母图像的识别功能,拟采用的可用于识别功能的模型包括resnet50、vgg19等。
44.所述数字检测及识别模块40通过按照二值化、闭运算、计算连通域、面积筛选及区域排序的处理顺序与方式。实现针对合同图像的数字字符分割工作,为保证数字字符分割部分具有较高的准确率及鲁棒性,考虑采用基于yolo模型的人工智能数字分割算法;对分割得到的各个单独的数字个体,采用基于深度学习cnn的框架来完成针对单个数字字符图像的识别功能,考虑到数字仅含0-9十个数字,需要分类的数量极少,故拟采用lenet来完成此模块的功能。
45.与现有技术相比,本发明提供的招标合同分析系统100通过针对合同文本中的印章部分实现自动检测及识别,针对合同文本中的中英文字符的自动检测及识别,针对合同文本中的数字部分进行自动检测和识别,本系统一经部署,可提供7*24小时的不间断识别服务,这为及时处理相关公司业务在实时性上提供了强有力的保障;同时,系统具备极强的鲁棒性和准确率,能够高精度的完成各项检测及识别任务。
46.以上仅为本发明的较佳实施例,并不用于局限本发明的保护范围,任何在本发明精神内的修改、等同替换或改进等,都涵盖在本发明的权利要求范围内。
技术特征:1.一种招标合同分析系统,其特征在于,包括:图像采集及预处理模块,用于采集合同图像并对所述采集合同图像进行预处理工作,输出图像集,其中,所述预处理工作包括图像去噪、边缘增强、roi提取及图像压缩;印章检测及识别模块,用于对所述图像集进行印章检测并提取印章文本,输出印章图像和与所述印章图像相对应的印章文本信息;字符检测及识别模块,用于对所述图像集进行字符检测并提取字符文本,输出字符文本图像和与所述字符文本图像相对应的字符文本信息;数字检测及识别模块,用于对所述图像集进行数字检测并提取数字文本,输出数字文本图像和与所述数字文本图像相对应的数字文本信息。2.如权利要求1所述的招标合同分析系统,其特征在于,所述采集合同图像基于传统数字图像处理算法、深度学习算法或机器学习算法中的其中一种进行预处理工作。3.如权利要求2所述的招标合同分析系统,其特征在于,所述传统数字图像处理算法包括用于所述图像去噪的邻域平均法、中值滤波、低通滤波和傅里叶变换,用于所述边缘增强的基于梯度算子的边缘增强法、基于roberts算子的边缘增强法和基于sobel算子的边缘增强法,用于完成所述roi提取的基于harris角点检测和聚类的roi提取法,用于完成所述图像压缩的基本压缩法。4.如权利要求1所述的招标合同分析系统,其特征在于,所述招标合同分析系统还包括:存储模块;所述印章检测及识别模块输出印章图像和与所述印章图像相对应的印章文本信息后,将所述印章文本信息保存于存储模块中。5.如权利要求4所述的招标合同分析系统,其特征在于,所述字符检测及识别模块输出字符文本图像和与所述字符文本图像相对应的字符文本信息后,将所述字符文本信息保存于所述存储模块中。6.如权利要求5所述的招标合同分析系统,其特征在于,所述数字检测及识别模块输出数字文本图像和与所述数字文本图像相对应的数字文本信息后,将所述数字文本信息保存于所述存储模块中。7.如权利要求1所述的招标合同分析系统,其特征在于,所述字符检测及识别模块包括文字的检测及识别和字母的检测及识别。8.如权利要求1所述的招标合同分析系统,其特征在于,所述字符检测及识别模块通过按照二值化、闭运算、计算连通域、面积筛选及区域排序的处理顺序与方式。9.如权利要求1所述的招标合同分析系统,其特征在于,所述数字检测及识别模块通过按照二值化、闭运算、计算连通域、面积筛选及区域排序的处理顺序与方式。
技术总结本发明公开了一种招标合同分析系统,包括:图像采集及预处理模块,用于采集合同图像并对所述采集合同图像进行预处理工作,输出图像集,其中,所述预处理工作包括图像去噪、边缘增强、ROI提取及图像压缩;印章检测及识别模块;字符检测及识别模块;数字检测及识别模块。本发明通过针对合同文本中的印章部分实现自动检测及识别,针对合同文本中的中英文字符的自动检测及识别,针对合同文本中的数字部分进行自动检测和识别,本系统一经部署,可提供7*24小时的不间断识别服务,这为及时处理相关公司业务在实时性上提供了强有力的保障;同时,系统具备极强的鲁棒性和准确率,能够高精度的完成各项检测及识别任务。完成各项检测及识别任务。完成各项检测及识别任务。
技术研发人员:王亚东 高睿 苏能武 林茂华 阮琳琳
受保护的技术使用者:珠海采筑电子商务有限公司
技术研发日:2022.03.15
技术公布日:2022/7/4