一种基于表达感知最近邻的信息抽取方法

allin2025-03-31  21


本发明涉及自然语言处理领域,具体涉及一种基于表达感知最近邻的信息抽取方法。


背景技术:

1、信息抽取是自然语言处理中的关键任务,旨在从大量文本数据中识别并结构化有用的信息元素。这些信息元素可以是实体、关系、事件和情感等,它们对计算机理解和处理自然语言具有重要意义。

2、在互联网搜索中,信息抽取技术可以用于自动识别和索引网页中的关键信息,也可以用于提升搜索引擎的准确性和用户体验。例如,通过实体识别技术,可以从网页内容中提取出重要的实体和关键词,帮助用户更快速地找到相关信息。在舆论分析中,信息抽取技术可以用于监控和分析社交媒体、新闻报道等来源的公众情绪和观点。例如,通过情感分析,可以实时监控社交媒体上的用户情感变化,帮助企业和政府及时了解公众的意见和反应。在医疗诊断中,信息抽取技术可以用于从医学文献和临床记录中提取出关键的诊断信息和治疗方案,辅助医生进行决策。例如,通过事件抽取,可以从临床记录中自动提取出患者的病历信息和治疗过程,提升医疗服务的效率和质量。在法律文档处理中,信息抽取技术可以用于自动识别和结构化法律文本中的重要信息,如案件事实、法律条款和判决结果。这可以帮助律师和法官更快速地查找和分析相关案例,提高法律服务的效率。

3、在信息抽取领域,实体识别、关系抽取和事件抽取等子任务之间具有一定全局依赖性和交互性。例如,某些关系类型或者事件的角色类型只和特定的实体类型相关,具有某种关系的两个实体很有可能作为同一事件的两个角色。然而,许多传统方法将实体识别、关系抽取和事件抽取作为独立的任务来处理,忽略了它们之间的内在联系。这种分离式的方法可能导致信息的丢失,从而影响抽取结果的准确性和完整性。因此,如何在完成信息抽取任务时考虑到各个子任务的全局依赖性和交互性成为了信息抽取领域的挑战。

4、为了建模信息抽取各个子任务之间的全局依赖性和交互性,一部分方法通过结合语言模型和图计算技术来捕捉数据中的复杂模式和关系;另一部分方法则侧重于通过联合学习框架来同时处理多个信息抽取任务,以实现任务间的相互促进和知识共享。

5、如图1所示,现有技术之一的“具有上下文化跨度表示的实体、关系和事件提取”中,提出了dygie++框架,通过枚举、优化和评分文本跨度,结合bert的上下文嵌入和图传播机制,来实现信息抽取。

6、首先,dygie++利用预训练语言模型bert,将文本中的实体和关系表示为一系列向量,捕捉各词在句子中的上下文信息。其次,dygie++在文本处理中,不仅考虑单个句子内文本片段间的依赖关系,还通过图结构表示不同句子之间的关系,将跨多个句子的实体和关系以节点和边的形式表示出来,更充分地捕捉它们的全局依赖关系。第三,dygie++采用了图传播机制来优化文本片段的向量表示。通过图卷积网络,模型能够在图中进行多轮的特征更新,每一轮更新都会考虑节点之间的信息传递和融合,使得每个节点和边(即每个实体和关系)的向量表示能够融合其邻居节点的信息。

7、如图2所示,现有技术之二的“基于全局特征的信息提取联合神经模型”中,提出了oneie框架,通过引入全局特征,捕捉不同任务和实例之间的相互依赖关系,实现了命名实体识别、关系抽取和事件抽取的联合建模。

8、首先,oneie利用预训练语言模型bert,将文本中的实体、关系和事件表示为一系列向量。其次,oneie通过引入事件结构建模,在处理事件抽取任务时,不仅识别事件本身,还识别与事件相关的实体和属性,模型将事件及其论元视为一个整体,建模事件与其论元之间的相互作用和依赖关系作为全局特征,进行联合学习与推理。第三,oneie采用了迁移学习的策略,首先使用预训练语言模型进行参数初始化,然后在目标任务上进行微调,将预训练得到的通用语言知识迁移到信息抽取中。

9、发明人在研究的过程中发现:对于“具有上下文化跨度表示的实体、关系和事件提取”、“基于全局特征的信息提取联合神经模型”现有技术中:

10、1、在扩展新的信息表达方式或者适应新的信息类型时,需要标注新的数据并重新训练模型,使得模型的维护成本较高;

11、2、尽管具有较高的抽取精度,模型缺乏可解释性,无法对做出的预测进行合理解释,使得用户难以理解模型的预测结果。

12、由于上述技术问题导致于现有技术中存在以下缺点:

13、1、对信息的新表达方式的扩展性以及对新信息类型的适应性较差;

14、2、缺乏有效的可解释性机制。


技术实现思路

1、为了解决上述技术问题,本发明提供了一种基于表达感知最近邻的信息抽取方法。通过引入后交互最近邻算法,将信息抽取问题转化为向量检索问题,提高信息抽取的可扩展性、可适应性以及可解释性;在训练阶段,本发明采用表达感知对比学习,保证训练过程各个训练实例具有相对一致的优化方向,显著提高了信息抽取的精度;在推理结束后,通过结合推理阶段检索到的标注样例和lime算法,本发明可以对抽取的信息实例进行合理解释,揭示哪些文本片段对模型的预测结果具有重要影响。

2、本发明提供了一种基于表达感知最近邻的信息抽取方法,在模型训练时,该方法包括:

3、步骤一、为训练集中的每个信息元素设计索引字段,包括以下字段:实例id、实例描述、实例类型、元素类型、实例签名和实例上下文;

4、步骤二、对于每一个信息元素di,随机采样一个与其类型不同的负样本

5、步骤三、计算di与其类型相同的信息元素d+的表达方式相似度,按照由大到小的顺序对d+进行排序,然后根据参数为ρ的几何分布采样一个正样本

6、步骤四、使用分词器将di的实例上下文进行分词,得到词序列[w1,w2,…],使用一个查询键编码器对各词进行编码,将编码后向量经过查询键投影层转换得到实例上下文的向量表示;

7、步骤五、使用分词器将正样本以及负样本对应的实例描述文本进行分词,然后使用一个查询词编码器对各个词进行编码,将编码后的向量经过查询词投影层转换得到用于检索和用于训练的向量;

8、步骤六、计算类别不平衡损失函数;

9、步骤七、使用优化器对查询键编码器、查询词编码器、查询键投影层、查询词投影层的参数进行更新。

10、进一步的,非训练情况下,进行信息抽取时,将步骤一到步骤七予以替换,替换如下:

11、步骤一、采用查询键编码器将训练集中的每一个元素的起始/结束标识符进行编码,再经查询键投影层得到索引向量并构建向量索引;

12、步骤二、对待进行信息抽取的文本进行分词,采用查询词编码器对每一个词进行编码,经查询词投影层得到一系列查询向量

13、步骤三、使用查询向量对索引元素的进行向量检索,计算相似性得分;当和的相似性得分大于阈值σ时,待抽取文本中的词wk与具有相同的元素类型和起始/结束类型;若两个wk具有相同元素类型,且前者对应起始类型而后者对应结束类型时,包括两个词在内,两个词之间的连续文本被添加到候选元素组对于每一个候选元素,选取相似度最高的k个索引作为邻域;

14、步骤四、根据候选元素邻域中索引元素对应的实例id,对所有候选元素进行分组其中表示该组内的候选元素都召回了实例id为j的索引元素;

15、步骤五、通过跨组投票机制对冲突的元素进行投票,确保每个实例的一致性和完整性,根据得票数决定最终分类;

16、步骤六、通过结合检索到的标注样例和lime算法,对抽取的信息实例进行解释。

17、进一步的,所述步骤一中,各索引字段的含义如下:

18、实例id:每个元素的唯一标识。

19、实例描述:描述信息元素的一段自然语言文本。

20、实例类型:表示元素所属实例的类型(实体类型、关系类型、事件类型)。

21、元素类型:对于关系和事件实例,表示关系中的头/尾元素或事件中的参数元素;对于连续的实体实例,元素类型与实例类型相同。

22、实例签名:概括实例抽象结构的文本。

23、实例上下文:描述元素所在实例的文本上下文特征。具体的,一组起始/结束标识符“[t-s]”和“[t-e]”被用来标记文本中核心元素(例如事件的触发词元素)的起始/结束位置;另外一组起始/结束标识符“[a-s]”和“[a-e]”用于标记该实例其它元素的起始/结束位置。

24、进一步的,所述步骤三中,表达方式相似度的计算如下:

25、

26、其中,di和dj是两个信息元素,sigi和sigj是它们的实例签名,coni和conj是它们的实例上下文,sbm25是bm25算法,α是控制权重的参数。

27、进一步的,所述步骤四中,向量生成过程的计算如下:

28、

29、其中,是归一化函数,用于将向量x转化为单位向量;σ是激活函数;和是查询键投影层,其中o表示哪一种标记与该参数对应,同时ho表示该标记对应的查询键编码器输出向量;得到的向量中,用于检索,用于训练。

30、进一步的,所述步骤五中,向量生成过程的计算如下:

31、

32、

33、其中,是归一化函数,用于将向量x转化为单位向量;σ是激活函数;和是查询词投影层,其中o表示哪一种标记与该参数对应,同时表示该标记对应的查询词编码器输出向量;得到的向量中,用于检索,用于训练。

34、进一步的,所述步骤六中,类别不平衡损失函数的计算如下:

35、

36、其中,τ是温度参数,用于控制损失函数对相似度变化的敏感程度;代表与索引向量具有相同元素类型的检索词向量集合,而代表具有不同元素类型的检索词向量集合。

37、本发明提供的一种基于表达感知最近邻的信息抽取方法,引入后交互最近邻算法,将信息抽取转换为向量检索问题,提高信息抽取的可扩展性、可适应性以及可解释性。在训练阶段,使用表达方式相似度和类别不平衡损失函数实现表达感知对比学习,提升信息抽取的精度;在推理阶段结束后,通过结合推理阶段检索到的标注样例和lime算法,对抽取的信息实例进行合理解释。


技术特征:

1.本发明提供了一种基于表达感知的最近邻信息抽取方法,其特征在于,在模型训练时,该方法包括:

2.如权利要求1所述的方法,其特征在于,非训练情况下,进行信息抽取时,将步骤一到步骤七予以替换,替换如下:

3.如权利要求1所述的方法,其特征在于,所述步骤一中,各索引字段的含义如下:

4.如权利要求1所述的方法,其特征在于,所述步骤三中,表达方式相似度的计算如下:

5.如权利要求1所述的方法,其特征在于,所述步骤四中,向量生成过程的计算如下:

6.如权利要求1所述的方法,其特征在于,所述步骤五中,向量生成的计算如下:

7.如权利要求1所述的方法,其特征在于,所述步骤六中,类别不平衡损失函数的计算如下:


技术总结
本发明提供了一种基于表达感知最近邻的信息抽取方法,通过引入后交互最近邻算法,将检索词和文本词均映射入向量空间计算,将信息抽取转换为向量检索问题,提高信息抽取的可扩展性、可适应性以及可解释性。在训练阶段,构建了统一的索引结构,结合表达方式相似度计算和几何分布策略进行采样,并使用了类别不平衡损失函数,保证训练过程各个训练实例具有相对一致的优化方向,提高了可扩展性和可适应性;在非训练阶段,通过结合推理阶段检索到的标注样例和LIME算法,本发明可以对抽取的信息实例进行合理解释,提高了可解释性。

技术研发人员:李思,陆树栋,林立涵,林博达
受保护的技术使用者:北京邮电大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19757.html

最新回复(0)