1.本技术涉及文本提取方法的技术领域,尤其涉及一种基于网页的信息提取方法和装置。
背景技术:2.随着近年来互联网的高速发展,多种信息的披露多以互联网作为媒介进行传播,对于需要按规定时间和方式公开的文件,通常按照固定格式通过网页进行对于公布。例如上市公司的招股说明书、各类财务报告和临时报告,这类文件大多具有较长的篇幅,或各类财务数据繁多,对其进行通篇浏览需耗费较多精力和时间,不利于快速获取各上市公司的信息披露重点。
3.因此,如何准确得到网络上网页中关键的目标信息,是目前亟待解决的技术问题。
技术实现要素:4.本发明的一种基于网页的信息提取方法和装置,能够准确得到网络上网页中关键的目标信息。
5.本发明实施例提供了以下方案:
6.第一方面,本发明实施例提供了一种基于网页的信息提取方法,所述方法包括:
7.获取提取词和文本提取模板,其中,所述提取词为待提取信息的关键字词;
8.根据所述提取词的关联词汇和所述文本提取模板,获得目标文本模板;
9.根据所述目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域,其中,所述标签主题为待提取信息的文件名称;
10.根据所述关联词汇提取所述目标区域的词汇字段,并将所述提取词和所述词汇字段对应展示于所述目标文本模板的预设区域。
11.在一种可选的实施例中,所述根据所述提取词的关联词汇和所述文本提取模板,获得目标文本模板,包括:
12.根据所述提取词的每个拓展词的热度指数,获得词汇热度集合;
13.根据所述词汇热度集合中大于预设热度的所述拓展词,确定所述关联词汇;
14.输入所述关联词汇至所述文本提取模板,获得所述目标文本模板。
15.在一种可选的实施例中,所述根据所述关联词汇提取所述目标区域的词汇字段,包括:
16.根据所述关联词汇和预设的目标字符,确定词汇提取区间;
17.根据所述词汇提取区间,确定位于所述目标区域的目标位置;
18.根据所述目标位置的文本信息,获得所述词汇字段。
19.在一种可选的实施例中,所述根据所述词汇提取区间,确定位于所述目标区域的目标位置之前,还包括:
20.根据预设的字符长度,更新所述词汇提取区间。
21.在一种可选的实施例中,所述标签主题为财务报表,所述根据所述关联词汇提取所述目标区域的目标字段,并将所述提取词和所述目标字段对应展示于所述目标文本模板的预设区域之后,还包括:
22.根据预设的勾稽关系校验所述词汇字段,并将校验结果对应展示。
23.在一种可选的实施例中,所述根据所述目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域之后,还包括:
24.根据所述提取词和所述标签主题,确定标签页码;
25.根据所述标签页码,更新所述目标区域。
26.在一种可选的实施例中,所述将所述提取词和所述词汇字段对应展示于所述目标文本模板的预设区域之后,还包括:
27.根据预设时间段内所述预设区域的每个展示结果,获得展示信息集合;
28.根据预设排序规则处理所述展示信息集合,获得目标展示信息。
29.第二方面,本发明实施例还提供了一种基于网页的信息提取装置,所述装置包括:
30.第一获取模块,用于获取提取词和文本提取模板,其中,所述提取词为待提取信息的关键字词;
31.第一获得模块,用于根据所述提取词的关联词汇和所述文本提取模板,获得目标文本模板;
32.第一确定模块,用于根据所述目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域,其中,所述标签主题为待提取信息的文件名称;
33.第一展示模块,用于根据所述关联词汇提取所述目标区域的词汇字段,并将所述提取词和所述词汇字段对应展示于所述目标文本模板的预设区域。
34.第三方面,本发明实施例还提供了一种电子设备,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行第一方面中任一项所述方法的步骤。
35.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
36.本发明提供的一种基于网页的信息提取方法和装置与现有技术相比,具有以下优点:
37.本发明通过获取文本提取模板,获取待提取信息的关键字词作为提取词,再通过提取词的关联词汇将文本提取模板中对应的栏次进行完善,以获得目标文本模板,通过目标文本模板的标签主题和预设的文本密度,可以确定出待提取信息的类型,在目标网页上准确确定出目标区域,再通过关联词汇提取目标区域的词汇字段,并将提取词和词汇字段对应展示于目标文本模板的预设区域,进而准确得到网络上网页中关键的目标信息。
附图说明
38.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1为本发明实施例提供的一种基于网页的信息提取方法的流程图;
40.图2为本发明实施例提供的一种基于网页的信息提取装置的结构示意图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明实施例保护的范围。
42.请参阅图1,图1为本发明实施例提供的一种基于网页的信息提取方法的流程图,所述方法包括:
43.s11、获取提取词和文本提取模板,其中,所述提取词为待提取信息的关键字词。
44.具体的,提取词可以根据待提取信息的关键字词获得,例如在招股说明书中需要提取出该公司发行的股本,可以确认提取词为“发行”。文本提取模板可以根据需要录入和提取的信息拟定,若一次需要提取较多的信息,可以拟定多个栏次,便于进行人机交互。获取提取词和文本提取模板后进入步骤s12。
45.s12、根据所述提取词的关联词汇和所述文本提取模板,获得目标文本模板。
46.具体的,关联词汇是与提取词具有相同含义的词汇,例如提取词为“激光”,关联词汇可以包括“镭射”。拓展方式可以根据关键词拓展工具实现,例如常用的seo关键词工具,将关联词汇和提取词输入文本提取模板,即可得到目标文本模板。
47.在一种具体的实施方式中,根据提取词的关联词汇和文本提取模板,获得目标文本模板,包括:
48.根据提取词的每个拓展词的热度指数,获得词汇热度集合;根据词汇热度集合中大于预设热度的拓展词,确定关联词汇;输入关联词汇至文本提取模板,获得目标文本模板。
49.具体的,提取词可能存在较多的关联词汇,若均对应输入文本提取模板,文本提取模板需要拟设较多的栏次,但是类似招股说明书的文件,使用词汇较为固定,部分拓展的关联词汇可能使用概率极小,造成计算冗余。热度指数表征的是每个拓展词在该类文件的使用频率,通过提取词的每个拓展词的热度指数,可以知晓各拓展词的使用频率分布,词汇热度集合中大于预设热度的拓展词,是使用频率分布较高的拓展词,预设热度可以根据实际情况进行设定,以确定出使用频率较高的关联词汇。将关联词汇输入至文本提取模板,即可获得信息准确简化的目标文本模板。获得目标文本模板后进入步骤s13。
50.s13、根据所述目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域,其中,所述标签主题为待提取信息的文件名称。
51.具体的,在浏览器的网页中,网页的信息是以html(hyper text markup language,超文本标记语言)文档编排的,整个网页中文本的分布根据网页格式而具有一定的区别。例如通过网页公示招股说明书时,由于招股说明书的文本较网页上其他内容相对密集,为准确确定出文件在网页中的具体区域,可以根据文件名称确定其类型,不同的类型对应不同的文本密度,因而可以确定出目标网页上的对应展示文件的目标区域。需要说明的是,待提取信息的文件通常为固定格式,因此存在对应的文本密度,例如招股说明书的文
本密度相对于财务报告大。确定目标区域后进入步骤s14。
52.s14、根据所述关联词汇提取所述目标区域的词汇字段,并将所述提取词和所述词汇字段对应展示于所述目标文本模板的预设区域。
53.具体的,仍以招股说明书为例,词汇字段中存在关联词汇,说明该词汇字段是包括关联词汇的语句,可能具有需要提取的关键信息,则将该词汇字段对应提取,并将提取词和词汇字段对应展示于目标文本模板的预设区域,便于准确得到网络上网页中关键的目标信息。预设区域可以是目标文本模板上对应提取词的一栏次,在该栏次中可以将词汇字段中的关联词汇突出显示,例如高亮显示,以提示阅读人员注意。
54.在一种具体的实施方式中,根据关联词汇提取目标区域的词汇字段,包括:
55.根据关联词汇和预设的目标字符,确定词汇提取区间;根据词汇提取区间,确定位于目标区域的目标位置;根据目标位置的文本信息,获得词汇字段。
56.具体的,目标字符是确定具有关联词汇的语句长度标志,在招股说明书中,可以是逗号“,”,也可以是句号“。”,通过关联词汇和预设的目标字符可以确定词汇提取区间,在进一步确定出目标位置,将目标位置的文本信息对应提取,即可获得词汇字段。
57.例如某一招股说明书公开如下内容:开通十余年来,通过提供互联网新闻信息内容和其他互动服务,积累了大量的互联网用户,但与其他商业网站的用户访问量差距仍比较大。根据权威统计,2011年8月22日,本公司所经营的独立访问者数量为19608人/百万人,环球网独立访问者数量为9703人/百万人,而其他商业网站独立访问者数量为247343人/百万人。此外,随着互联网信息服务行业的开放及充足资金支持,其他商业网站不但可提供转载的新闻信息,同时能够灵活运用综合性服务的优势积聚用户,对本公司形成了很大的挑战。
58.关联词汇为“独立访问者”,目标字符预设为句号“。”,确定的词汇提取区间为“根据权威统计,2011年8月22日,本公司所经营的独立访问者数量为19608人/百万人,环球网独立访问者数量为9703人/百万人,而其他商业网站独立访问者数量为247343人/百万人。”,能够通过词汇提取区间确定目标区域的目标位置,进而获得需要提取的词汇字段。
59.在具体实施时,由于目标网页上的文本多采用人工撰写和编辑,可能存在字符使用不规范的问题,仅通过目标字符确定词汇提取区间,导致最终获得的词汇字段和需要获得的词汇字段存在一定偏差。
60.为解决上述问题,在一种具体的实施方式中,根据词汇提取区间,确定位于目标区域的目标位置之前,还包括:
61.根据预设的字符长度,更新词汇提取区间。
62.具体的,字符长度可以自由定义,例如可以是关联词汇前后30-50字段的位置,通过字符长度更新词汇提取区间后,能够根据实际需要提取的信息对字符长度进行设定,进而准确提取出词汇字段,减小关键信息的遗漏。
63.在具体应用时,信息通过网页的披露是多样化的,例如招股说明书多以文本形式披露,其他信息通过表格或图形形式披露,可能造成信息提取错误。
64.在一种具体的实施方式中,标签主题为财务报表,根据关联词汇提取目标区域的目标字段,并将提取词和目标字段对应展示于目标文本模板的预设区域之后,还包括:
65.根据预设的勾稽关系校验词汇字段,并将校验结果对应展示。
66.具体的,可以理解,财务报表的勾稽关系指账簿和会计报表中有关数字之间存在的,可据以相互考察、核对的关系。例如,每一总分类帐户的期末余额与其所属各二级帐户或明细分类帐户的期末余额之和,存在着相互一致可以核对的关系。根据关联词汇提取目标区域的目标字段后,为进一步验证提取的是否准确,通过预设的勾稽关系校验词汇字段。若校验通过,则对应展示校验结果为正确;反之,若校验不通过,则对应展示校验结果为错误。
67.信息通过网页的披露并不是即时更新的,可能根据相关的法规和准则,按固定时间披露,例如3-6个月,披露一次涉及内容可能较多,部分文件可达几百页,甚至上千页,其中包括索引等非关键信息,对应提取导致提取的部分存在的非关键信息过多。
68.在一种具体的实施方式中,根据目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域之后,还包括:
69.根据提取词和标签主题,确定标签页码;根据标签页码,更新目标区域。
70.具体的,通过标签主题可以知晓待提取信息的文件类型,不同类型的文件中待提取信息的位置存在差异。仍以招股说明书为例,其中的重大事项提示多出现在4-8页之后,在该内容中涉及公司股利分配政策、现金分红比例规定,若提取词为股利分配,则可以根据提取词和标签主题确定标签页码,更新目标区域。
71.在一种具体的实施方式中,将提取词和词汇字段对应展示于目标文本模板的预设区域之后,还包括:
72.根据预设时间段内预设区域的每个展示结果,获得展示信息集合;根据预设排序规则处理展示信息集合,获得目标展示信息。
73.具体的,预设排序规则可以根据提取词进行设定,例如提取词为营业金额,根据提取词将提取的信息进行展示后,可以选择展示的时间段,并进行降序排列,提高展示信息集合的可读性。
74.基于与提取方法同样的发明构思,本发明实施例还提供了一种基于网页的信息提取装置,请参阅图2,所述装置包括:
75.第一获取模块201,用于获取提取词和文本提取模板,其中,所述提取词为待提取信息的关键字词;
76.第一获得模块202,用于根据所述提取词的关联词汇和所述文本提取模板,获得目标文本模板;
77.第一确定模块203,用于根据所述目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域,其中,所述标签主题为待提取信息的文件名称;
78.第一展示模块204,用于根据所述关联词汇提取所述目标区域的词汇字段,并将所述提取词和所述词汇字段对应展示于所述目标文本模板的预设区域。
79.基于与提取方法同样的发明构思,本发明实施例还提供了一种电子设备,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行提取方法中任一项所述方法的步骤。
80.基于与提取方法同样的发明构思,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现提取方法中任一项所述方法的步骤。
81.本发明实施例中提供的技术方案,至少具有如下技术效果或优点:
82.通过获取文本提取模板,获取待提取信息的关键字词作为提取词,再通过提取词的关联词汇将文本提取模板中对应的栏次进行完善,以获得目标文本模板,通过目标文本模板的标签主题和预设的文本密度,可以确定出待提取信息的类型,在目标网页上准确确定出目标区域,再通过关联词汇提取目标区域的词汇字段,并将提取词和词汇字段对应展示于目标文本模板的预设区域,进而准确得到网络上网页中关键的目标信息。
83.本发明是参照根据本发明实施例的方法、装置(模块、系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
84.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
85.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
86.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
87.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
技术特征:1.一种基于网页的信息提取方法,其特征在于,所述方法包括:获取提取词和文本提取模板,其中,所述提取词为待提取信息的关键字词;根据所述提取词的关联词汇和所述文本提取模板,获得目标文本模板;根据所述目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域,其中,所述标签主题为待提取信息的文件名称;根据所述关联词汇提取所述目标区域的词汇字段,并将所述提取词和所述词汇字段对应展示于所述目标文本模板的预设区域。2.根据权利要求1所述的基于网页的信息提取方法,其特征在于,所述根据所述提取词的关联词汇和所述文本提取模板,获得目标文本模板,包括:根据所述提取词的每个拓展词的热度指数,获得词汇热度集合;根据所述词汇热度集合中大于预设热度的所述拓展词,确定所述关联词汇;输入所述关联词汇至所述文本提取模板,获得所述目标文本模板。3.根据权利要求1所述的基于网页的信息提取方法,其特征在于,所述根据所述关联词汇提取所述目标区域的词汇字段,包括:根据所述关联词汇和预设的目标字符,确定词汇提取区间;根据所述词汇提取区间,确定位于所述目标区域的目标位置;根据所述目标位置的文本信息,获得所述词汇字段。4.根据权利要求3所述的基于网页的信息提取方法,其特征在于,所述根据所述词汇提取区间,确定位于所述目标区域的目标位置之前,还包括:根据预设的字符长度,更新所述词汇提取区间。5.根据权利要求1所述的基于网页的信息提取方法,其特征在于,所述标签主题为财务报表,所述根据所述关联词汇提取所述目标区域的目标字段,并将所述提取词和所述目标字段对应展示于所述目标文本模板的预设区域之后,还包括:根据预设的勾稽关系校验所述词汇字段,并将校验结果对应展示。6.根据权利要求1所述的基于网页的信息提取方法,其特征在于,所述根据所述目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域之后,还包括:根据所述提取词和所述标签主题,确定标签页码;根据所述标签页码,更新所述目标区域。7.根据权利要求1所述的基于网页的信息提取方法,其特征在于,所述将所述提取词和所述词汇字段对应展示于所述目标文本模板的预设区域之后,还包括:根据预设时间段内所述预设区域的每个展示结果,获得展示信息集合;根据预设排序规则处理所述展示信息集合,获得目标展示信息。8.一种基于网页的信息提取装置,其特征在于,所述装置包括:第一获取模块,用于获取提取词和文本提取模板,其中,所述提取词为待提取信息的关键字词;第一获得模块,用于根据所述提取词的关联词汇和所述文本提取模板,获得目标文本模板;第一确定模块,用于根据所述目标文本模板的标签主题和预设的文本密度,确定目标网页的目标区域,其中,所述标签主题为待提取信息的文件名称;
第一展示模块,用于根据所述关联词汇提取所述目标区域的词汇字段,并将所述提取词和所述词汇字段对应展示于所述目标文本模板的预设区域。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行权利要求1-7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
技术总结本发明公开了一种基于网页的信息提取方法和装置,提取方法通过获取文本提取模板,获取待提取信息的关键字词作为提取词,再通过提取词的关联词汇将文本提取模板中对应的栏次进行完善,以获得目标文本模板,通过目标文本模板的标签主题和预设的文本密度,可以确定出待提取信息的类型,在目标网页上准确确定出目标区域,再通过关联词汇提取目标区域的词汇字段,并将提取词和词汇字段对应展示于目标文本模板的预设区域,进而准确得到网络上网页中关键的目标信息。键的目标信息。键的目标信息。
技术研发人员:胡楠
受保护的技术使用者:武汉文构数据科技有限公司
技术研发日:2022.04.06
技术公布日:2022/7/4