一种文本识别方法、装置、设备及介质与流程

allin2025-03-23  37


本公开涉及计算机,尤其涉及一种文本识别方法、装置、设备及介质。


背景技术:

1、目前很多文本图像需要提取其中的文本内容,相关技术中可以通过光学字符识别(optical character recognition,ocr)对文本图像进行分析处理,获取文本信息。上述识别方式是基于文本行的粒度来识别,当需要获取单字的具体信息时,通常可以增加文本行内的单字检测模块来实现,但是可能存在识别错误的情况。为了解决上述问题相关技术可以增加文本行内的单字检测模块和单字识别模块来实现单字识别,但这种方式会增加较多耗时和资源,并且单字识别的准确性较低,需要改进。


技术实现思路

1、为了解决上述技术问题,本公开提供了一种文本识别方法、装置、设备及介质。

2、本公开实施例提供了一种文本识别方法,所述方法包括:

3、获取目标文本图像;

4、对所述目标文本图像进行文本行的检测和切分,得到多个文本行图像;

5、利用单字检测模型对所述多个文本行图像进行检测,确定各所述文本行图像中文字的第一单字位置;

6、利用文本行识别模型对所述多个文本行图像进行识别,确定各所述文本行图像中文字的第二单字位置和内容;

7、确定各所述文本行图像的第一单字位置和第二单字位置之间的对应关系;

8、基于各所述文本行图像的第一单字位置和第二单字位置之间的对应关系确定文字的内容和第一单字位置之间的对应关系。

9、本公开实施例还提供了一种文本识别装置,所述装置包括:

10、获取模块,用于获取目标文本图像;

11、行检测模块,用于对所述目标文本图像进行文本行的检测和切分,得到多个文本行图像;

12、第一字检测模块,用于利用单字检测模型对所述多个文本行图像进行检测,确定各所述文本行图像中文字的第一单字位置;

13、第二字检测模块,用于利用文本行识别模型对所述多个文本行图像进行识别,确定各所述文本行图像中文字的第二单字位置和内容;

14、匹配模块,用于确定各所述文本行图像的第一单字位置和第二单字位置之间的对应关系;

15、确定模块,用于基于各所述文本行图像的第一单字位置和第二单字位置之间的对应关系确定文字的内容和第一单字位置之间的对应关系。

16、本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的文本识别方法。

17、本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的文本识别方法。

18、本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例提供的文本识别方案,获取目标文本图像;对目标文本图像进行文本行的检测和切分,得到多个文本行图像;利用单字检测模型对多个文本行图像进行检测,确定各文本行图像中文字的第一单字位置;利用文本行识别模型对多个文本行图像进行识别,确定各文本行图像中文字的第二单字位置和内容;确定各文本行图像的第一单字位置和第二单字位置之间的对应关系;基于各文本行图像的第一单字位置和第二单字位置之间的对应关系确定文字的内容和第一单字位置之间的对应关系。采用上述技术方案,对文本图像识别得到的文本行图像可以分别利用单字检测模型和文本行识别模型进行检测,得到准确性不同的第两个单字位置,通过对这两个单字位置的匹配将识别的文字的内容与准确性较高的单字位置对应上,通过在文本行增加单字检测和匹配,不仅避免增加过多的额外耗时和资源,并且保证了对文本图像的单字识别的更高的准确性。



技术特征:

1.一种文本识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述目标文本图像进行文本行的检测和切分,得到多个文本行图像,包括:

3.根据权利要求1所述的方法,其特征在于,确定各所述文本行图像的第一单字位置和第二单字位置之间的对应关系,包括:

4.根据权利要求1所述的方法,其特征在于,基于各所述文本行图像的第一单字位置和第二单字位置之间的对应关系确定文字的内容和第一单字位置之间的对应关系,包括:

5.根据权利要求1所述的方法,其特征在于,所述利用文本行识别模型对所述多个文本行图像进行识别,确定各所述文本行图像中具有对应关系的单字内容以及第二单字位置之后,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,对所述目标文本图像进行文本行检测和文本行切分,得到多个文本行图像之后,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述基于各所述文本行图像的第一单字位置和第二单字位置之间的对应关系确定文字的内容和第一单字位置之间的对应关系之后,所述方法还包括:

8.一种文本识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一所述的文本识别方法。


技术总结
本公开实施例涉及一种文本识别方法、装置、设备及介质,其中该方法包括:获取目标文本图像;对目标文本图像进行文本行的检测和切分,得到多个文本行图像;利用单字检测模型对多个文本行图像进行检测,确定各文本行图像中文字的第一单字位置;利用文本行识别模型对多个文本行图像进行识别,确定各文本行图像中文字的第二单字位置和内容;确定各文本行图像的第一单字位置和第二单字位置之间的对应关系;基于各文本行图像的第一单字位置和第二单字位置之间的对应关系确定文字的内容和第一单字位置之间的对应关系。本公开实施例通过在文本行增加单字检测和匹配,不仅避免增加过多的额外耗时和资源,并且保证了对文本图像的单字识别的更高的准确性。

技术研发人员:林春晖,黄灿
受保护的技术使用者:抖音视界有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19499.html

最新回复(0)