防止学者论文库过拆分的历史错误纠正方法和系统与流程

allin2022-07-12  194



1.本技术涉及信息处理技术领域,尤其涉及一种防止学者论文库过拆分的历史错误纠正方法和系统。


背景技术:

2.目前,学者论文过拆分是学者论文库在运行时经常遇到的问题。这一问题来源于学者论文库为了消除不同作者同一名称歧义所设计的论文冷启动消歧和论文的增量消歧算法在运行的过程中发生的算法过拆分的错误的场景。过拆分场景产生了大量碎片簇,即同一学者的多个学者库,碎片簇会随着系统论文的增加不断变多,进而导致增量算法的召回以及精度发生很大的降低。
3.相关技术中,为了避免学者论文过拆分,通常是在论文冷启动阶段和增量阶段进行改进,即针对名称消歧算法产生的过拆分的历史错误,大多是针对名称消歧算法的改进。举例而言,inc算法在增量消歧算法中,通过检查过拆分碎片之间的相似度是否大于指定阈值,从而直接将这些过拆分碎片全部进行合并,但是该方法容易产生错误的合并。mindi算法专门对碎片合并进行了研究,当遇到多个候选作者满足指定条件时,近一步计算候选作者之间的距离,并将距离最近的两个候选作者进行合并,但是该方法准确率和召回率存在不足。
4.因此,上述针对名称消歧算法进行改进的防止过拆分的方案,在纯度优先的原则下,同一作者的多篇论文还是难免被分为多个簇,从而产生过拆分错误,过拆分错误纠正的准确性较低。


技术实现要素:

5.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
6.为此,本技术的第一个目的在于提出一种防止学者论文库过拆分的历史错误纠正方法方法,该方法可以在不损失召回以及精度的前提下,纠正消歧系统运行时的产生的过拆分错误,提高了过拆分错误纠正的速度、精确度和召回率,并且可适用于不同类型的科技大数据系统平台,具有较高的通用性。
7.本技术的第二个目的在于提出一种防止学者论文库过拆分的历史错误纠正系统。
8.本技术的第三个目的在于提出一种非临时性计算机可读存储介质。
9.为达上述目的,本技术的第一方面实施例提出了一种防止学者论文库过拆分的历史错误纠正方法,包括以下步骤:
10.通过对学者名称进行重新构建,快速获取目标学者论文库和对应的多个待分配的论文簇;
11.根据能够唯一确定作者的信息对所述目标学者论文库和所述待分配的论文簇进行直接匹配,对于直接匹配成功的论文簇进行直接对齐;
12.对于直接匹配未成功的论文簇,通过基于转换器的双向编码表征-双向长短记忆
网络-条件随机场bert-bi-lstm-crf模型,识别所述论文簇和所述目标学者论文库中的论文的作者相关信息和摘要中的实体信息;
13.分别计算所述目标学者论文库和候选对齐论文簇中待匹配的论文包括的作者所属机构信息的匹配度和期刊信息的匹配度;
14.结合所述实体信息和所述匹配度分别计算每个所述候选对齐论文簇与所述目标学者论文库的相似性特征,基于每个所述候选对齐论文簇对应的全部相似性特征构建对应的相似度向量,并根据所述相似度向量训练对应的集成学习模型,通过训练完成的集成学习模型判断每个所述候选对齐论文簇与所述目标学者论文库是否对齐;
15.将所述训练完成的集成学习模型判定为对齐的候选对齐论文簇与所述目标学者论文库进行合并,并对判定为未对齐的论文簇进行人工标注,根据标注结果将误判的论文簇重新放入训练集中,以更新模型精度。
16.可选地,在本技术的一个实施例中,识别所述论文簇和所述目标学者论文库中的论文的作者相关信息和摘要中的实体信息,包括:
17.s11:确定预先命名的实体信息,所述实体信息包括预先定义的专有名词信息;
18.s12:通过基于转换器的双向编码表征bert模型将所述作者相关信息和所述摘要中的每个句子的各个单字进行向量化表示,生成字向量序列;
19.s13:将所述字向量序列输入到双向长短记忆网络bilstm模型中提取词语的上下文信息,生成所述作者相关信息和所述摘要的序列信息;
20.s14:通过条件随机场crf模型计算每个所述序列信息的条件概率,并输出对应不同的实体信息的最大概率的序列;
21.s15:重复执行步骤s12至s14,通过调节模型的结构和超参数,训练bert-bi-lstm-crf模型;
22.s16:通过训练完成的所述bert-bi-lstm-crf模型提取所述预先命名的实体信息。
23.可选地,在本技术的一个实施例中,分别计算所述目标学者论文库和候选对齐论文簇中待匹配的论文包括的作者所属机构信息的匹配度和期刊信息的匹配度,包括:
24.将所述待匹配的论文中包含所述作者所属机构信息或所述期刊信息的待匹配串直接进行字符串匹配;
25.对于匹配度在预设的匹配度阈值以下的两个待匹配串分别进行分词处理,从每个分词序列中提取对应的关键词序列;
26.通过所述双向长短记忆网络bilstm模型分别获取每个所述分词序列和每个所述关键词序列的双向语序;
27.计算所述两个待匹配串的所述作者机构或所述期刊的分词序列的双向语序和关键词序列的双向语序的偏移量;
28.基于所述每个所述分词序列的双向语序、每个所述关键词序列的双向语序、所述分词序列的双向语序的偏移量和所述关键词序列的双向语序的偏移量,确定所述两个待匹配串的相似向量;
29.将所述相似向量输入至预设的全连接层中计算所述两个待匹配串的所述作者所属机构信息或所述期刊信息的匹配度。
30.可选地,在本技术的一个实施例中,结合所述实体信息和所述匹配度分别计算每
个所述候选对齐论文簇与所述目标学者论文库的相似性特征,包括:根据每个所述候选对齐论文簇包含论文数量是否超过预设的数量阈值,将全部的候选对齐论文簇划分为第一部分和第二部分,其中,所述第一部分的候选对齐论文簇包含的论文数量大于等于所述数量阈值,所述第二部分的候选对齐论文簇包含的论文数量小于所述数量阈值;对于属于所述第一部分的每个候选对齐论文簇,计算与所述目标学者论文库之间的共同作者相似度、共同机构相似度、共同期刊相似度、摘要和标题的词频相似度、杰卡德jaccard相似度、作者的稀缺度、论文发表时间重合度和论文专有名词相似度;对于属于所述第二部分的每个候选对齐论文簇,计算与所述目标学者论文库之间的论文的作者所属机构的相似度、论文中的期刊信息的相似度、作者的稀缺度、论文专有名词相似度和论文嵌入之间的相似度。
31.可选地,在本技术的一个实施例中,通过训练完成的集成学习模型判断每个所述候选对齐论文簇与所述目标学者论文库是否对齐,包括:通过所述训练完成的集成学习模型对对应的候选对齐论文簇与所述目标学者论文库的对齐程度进行打分,以获取每个所述候选对齐论文簇的对齐程度分值;将任一候选对齐论文簇的所述对齐程度分值与预设的对齐阈值进行比较,若所述对齐程度分值大于所述对齐阈值,则判断所述任一候选对齐论文簇与所述目标学者论文库对齐。
32.可选地,在本技术的一个实施例中,对判定为不对齐的论文簇进行人工标注,根据标注结果将误判的论文簇重新放入训练集中,包括:在全部未对齐的论文簇中选取所述对齐程度分值最高的目标未对齐的论文簇;对所述目标未对齐的论文簇进行人工标注,判断所述目标未对齐的论文簇是否分配至所述目标学者论文库;如果判定所述目标未对齐的论文簇分配至所述目标学者论文库,则将所述目标未对齐的论文簇输入至所述bert-bi-lstm-crf模型和所述集成学习模型的训练集中。
33.可选地,在本技术的一个实施例中,对学者名称进行重新构建,包括:通过局部敏感哈希lsh对学者名称进行重新构建,其中,对于存在中文名的学者名先用所述中文名进行区分。
34.可选地,在本技术的一个实施例中,对学者名称进行重新构建之前,还包括:对获取的包含所述目标学者论文库和所述对应的多个待分配的论文簇的数据进行数据清洗,所述数据清洗包括:删除所述数据中的空白字段和超文本标记语音html标签文本信息。
35.为达上述目的,本技术的第二方面实施例提出了一种防止学者论文库过拆分的历史错误纠正系统,包括以下模块:
36.构建模块,用于通过对学者名称进行重新构建,快速获取目标学者论文库和对应的多个待分配的论文簇;
37.匹配模块,用于根据能够唯一确定作者的信息对所述目标学者论文库和所述待分配的论文簇进行直接匹配,对于直接匹配成功的论文簇进行直接对齐;
38.识别模块,用于对于直接匹配未成功的论文簇,通过基于转换器的双向编码表征-双向长短记忆网络-条件随机场bert-bi-lstm-crf模型,识别所述论文簇和所述目标学者论文库中的论文的作者相关信息和摘要中的实体信息;
39.第一计算模块,用于分别计算所述目标学者论文库和候选对齐论文簇中待匹配的论文包括的作者所属机构信息的匹配度和期刊信息的匹配度;
40.第二计算模块,用于结合所述实体信息和所述匹配度分别计算每个所述候选对齐
论文簇与所述目标学者论文库的相似性特征,基于每个所述候选对齐论文簇对应的全部相似性特征构建对应的相似度向量,并根据所述相似度向量训练对应的集成学习模型,通过训练完成的集成学习模型判断每个所述候选对齐论文簇与所述目标学者论文库是否对齐;
41.标注模块,用于将所述训练完成的集成学习模型判定为对齐的候选对齐论文簇与所述目标学者论文库进行合并,并对判定为未对齐的论文簇进行人工标注,根据标注结果将误判的论文簇重新放入训练集中,以更新模型精度。
42.本技术的实施例提供的技术方案至少带来以下有益效果:本技术依据集成的思想,通过过拆分历史错误纠错的方法来解决科技大数据平台下当前名称消歧系统存在的缺陷。该方法通过规则匹配、实体信息提取、论文机构和期刊名称匹配、学者库对齐和人工标注五个操作流程,可以在不损失召回以及精度的前提下,纠正消歧系统运行时的产生的过拆分错误,能够针对亿级别的数据进行历史纠错,提高了过拆分错误纠正的速度、精确度和召回率,并且可适用于不同类型的科技大数据系统平台,具有较高的通用性,有利于完善完善数字图书馆等平台的名称消歧系统。
43.为了实现上述实施例,本技术第三方面实施例还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的防止学者论文库过拆分的历史错误纠正方法。
44.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
45.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中
46.图1为本技术实施例提出的一种防止学者论文库过拆分的历史错误纠正方法的流程图;
47.图2为本技术实施例提出的一种具体的实体信息的识别方法的流程图;
48.图3为本技术实施例提出的一种具体的防止学者论文库过拆分的历史错误纠正系统的结构示意图;
49.图4为本技术实施例提出的一种具体的防止学者论文库过拆分的历史错误纠正方法的流程示意图;
50.图5为本技术实施例提出的一种防止学者论文库过拆分的历史错误纠正系统的结构示意图。
具体实施方式
51.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
52.下面参考附图描述本发明实施例所提出的一种防止学者论文库过拆分的历史错误纠正方法和系统。
53.图1为本技术实施例提出的一种防止学者论文库过拆分的历史错误纠正方法的流
程图,如图1示,该方法包括以下步骤:
54.步骤101,通过对学者名称进行重新构建,快速获取目标学者论文库和对应的多个待分配的论文簇。
55.具体的,对于从本技术的历史错误纠正方法所应用的科技大数据平台,比如,aminer或其他类型的学者论文库中获取的数据,先通过对学者名称进行重新构建,快速构建待对齐的备选集,备选集包括目标学者论文库和与该论文库对应的多个需要确定如何分配的论文簇。
56.在本技术实施例中,在确定备选集后,获取了一批指定格式的,相同名称的学者论文库,学者论文库中存在若干篇论文(paper),论文的数量根据实际情况确定,每篇paper中包含的信息包括标题(title)、作者(authors)、期刊(venue)、发表时间(year)、关键词(keywords)、摘要(abstract)等信息。其中,author中包含的信息包括作者名称(name)、作者发表论文(pubs)、作者相关信息(contact)等信息。在后续通过本技术的防止学者论文库过拆分的历史错误纠正方法,可以输出对齐的学者库对,即属于同一作者的各个学者库。
57.具体实施时,在本技术一个实施例中,可以通过采用局部敏感哈希(locality-sensitive hashing,简称lsh)对学者名称进行重新构建,其中,对于存在中文名的学者名先用所述中文名进行区分并使用远程字典服务(remote dictionary server,简称redis)进行存储,从而快速匹配待对齐的学者论文库和其待分配论文簇。
58.具体而言,由于局部敏感哈希可用于海量高维数据的近似最近邻快速查找,通过局部敏感哈希lsh对学者名称进行重新构建可以快速匹配论文库和其待分配论文簇,该过程将单次匹配的时间复杂度从o(n)降到了o(1),提升了执行效率。并且,在redis数据库中对构建的哈希值hash与目标论文学者库id的映射关系进行缓存,以进一步加快存取速度,由此,可以快速的构建备选集。
59.需要说明的是,在该实施例中,在构建学者名时将中英文名称统一归一为英文,比如,将“李华”转换为“hua li”。另外对于存在中文名的要先用中文名进行区分,比如“李华”和“李骅”在中文上无歧义,但是英文上存在歧义,因此,在转换前先通过中文进行区分进一步消除歧义。
60.还需说明的是,由于直接获取的数据可能存在与错误纠正无关的数据,因此,在本技术一个实施例中,对学者名称进行重新构建之前,还包括:对获取的包含目标学者论文库和对应的多个待分配的论文簇的数据进行数据清洗,数据清洗包括:删除数据中的空白字段和超文本标记语音html标签文本信息。比如,aminer中的数据多来源于互联网上的公开数据,因此需要对数据进行清洗,将其中存在的字段为空的字段删除,将文本中存在的html标签文本信息的也清洗掉。
61.步骤102,根据能够唯一确定作者的信息对目标学者论文库和待分配的论文簇进行直接匹配,对于直接匹配成功的论文簇进行直接对齐。
62.其中,能够唯一确定作者的信息是能够唯一标识作者以与其他作者区分的信息,比如,可以包括email和开放研究者与贡献者身份识别码(open researcher and contributor id,简称orcid)等,此处不做限制。
63.在本技术实施例中,通过email和orcid等能唯一确定作者的信息,对目标学者论文库和待分配的论文簇进行直接匹配,如果能成功按照此方法匹配,则跳过后续的处理步
骤,直接将匹配成功的论文簇与目标学者论文库对齐,对于多个待分配的论文簇中无法直接匹配的论文簇执行后续的处理步骤。
64.步骤103,对于直接匹配未成功的论文簇,通过基于转换器的双向编码表征-双向长短记忆网络-条件随机场bert-bi-lstm-crf模型,识别论文簇和目标学者论文库中的论文的作者相关信息和摘要中的实体信息。
65.其中,实体信息包括contact中包含的作者机构、合作者和研究方向等信息,以及abstract中包含的专有名词信息等。
66.具体的,对于上一步未直接匹配成功的论文簇,预先定义contact和abstract中的实体信息,再通过基于转换器的双向编码表征(bidirectional encoder representations from transformers,简称bert)-双向长短记忆网络(bi-lstm)-条件随机场(crf)模型,即bert-bi-lstm-crf模型,对预定义的名词使用预设的数据集,比如科学引文索引sci数据集进行预训练,通过训练完成的bert-bi-lstm-crf模型,提取未直接匹配成功的论文簇和目标学者论文库中的论文的作者相关信息和摘要中的实体信息。
67.为了更加清楚的说明本技术识别contact和abstract中的相关实体信息的具体实现方式,下面以本实施例中提出的一种具体的实体信息的识别方法进行示例性说明,如图2所示,该方法包括以下步骤:
68.s11:确定预先命名的实体信息,实体信息包括预先定义的专有名词信息。
69.具体的,确定从contact中提取作者机构、合作者、研究方向和发表期刊等一系列信息,从abstract中提取到其中的专有名词信息。在本步骤中,命名上述实体信息,举例而言,在命名专有名词时,可以通过下面文本定义intrinsic object structure为[i-scientificterm]。
[0070]
in[o]this[o]paper[o],[o]a[o]novel[o]method[o]to[o]learn[o]the[o]intrinsic[i-scientificterm]object[i-scientificterm]structure[i-scientificterm]for[o]robust[o]visual[o]tracking[o]is[o]proposed[o]。其中,[o]可以为空格等不需要处理的字符。
[0071]
s12:通过基于转换器的双向编码表征bert模型将作者相关信息和摘要中的每个句子的各个单字进行向量化表示,生成字向量序列。
[0072]
具体的,通过bert将句子中的单字进行向量化表示,在本示例中,可以控制bert使用mask lm和next sentence prediction两个无监督任务进行预训练,生成能够描述字符级、词级、句子级以及句子间级别的特征。
[0073]
s13:将字向量序列输入到双向长短记忆网络bilstm模型中提取词语的上下文信息,生成作者相关信息和摘要的序列信息。
[0074]
具体的,将s12生成的字向量序列输入到bilstm中进一步感知词语上下文的语境信息。从而提取到词语的上下文信息,以及本文的序列信息。根据当前词语信息和上下文信息得到序列信息。
[0075]
s14:通过条件随机场crf模型计算每个序列信息的条件概率,并输出对应不同的实体信息的最大概率的序列。
[0076]
具体的,通过crf层将最大概率的序列表达进行输出,crf模型的条件概率公式描述如下:
[0077][0078]
通过该公式可以计算每个序列信息对应不同的实体信息的概率,各参数的含义可以参照相关技术中的解释,此处不再赘述。进而再通过比较概率值的大小,确定对应每个实体信息的最大概率的序列。
[0079]
s15:重复执行步骤s12至s14,通过调节模型的结构和超参数,训练bert-bi-lstm-crf模型。
[0080]
具体的,上述步骤s12至s14可以为bert-bi-lstm-crf模型的一个训练周期,通过重复执行步骤s12至s14,并调节模型的结构,以及损失函数、激活函数和学习率等超参数,训练bert-bi-lstm-crf模型。
[0081]
s16:通过训练完成的bert-bi-lstm-crf模型提取预先命名的实体信息。
[0082]
具体的,通过训练完成的模型,提取s11中命名的实体信息,并将获取到的信息整合到现存信息中,便于为后续的特征向量构建提供数据基础。
[0083]
步骤104,分别计算目标学者论文库和候选对齐论文簇中待匹配的论文包括的作者所属机构信息的匹配度和期刊信息的匹配度。
[0084]
需要说明的是,以org存在的歧义为一种示例,对于“yanshan university”和“yanshan university information science and engineering”两个作者所属机构,如果直接通过字符串匹配等直接判断方式,可以判定两者为两个机构无法匹配,在该示例中可以看出,两者存在包含关系,即在实际应用中,org不匹配时可能是论文中的作者所属机构只写到了学校级别而没有写到学院导致歧义。另外,同一venue也可能存在着不同的表示。为此,本技术实施例还通过相关的匹配算法对目标学者论文库和候选对齐论文簇中待匹配的论文包括的作者所属机构信息和期刊信息进行匹配。其中,候选对齐论文簇即步骤103中未直接匹配成功,仍需进行后续纠正处理的论文簇。
[0085]
具体实施时,作为一种可能的实现方式,该匹配方法可以包括以下步骤,先将待匹配的论文中包含作者所属机构信息或期刊信息的待匹配串直接进行字符串匹配;对于匹配度在预设的匹配度阈值以下的两个待匹配串分别进行分词处理,从每个分词序列中提取对应的关键词序列;通过双向长短记忆网络bilstm模型分别获取每个分词序列和每个关键词序列的双向语序;计算两个待匹配串的作者机构或期刊的分词序列的双向语序和关键词序列的双向语序的偏移量;基于每个分词序列的双向语序、每个关键词序列的双向语序、分词序列的双向语序的偏移量和关键词序列的双向语序的偏移量,确定两个待匹配串的相似向量;将相似向量输入至预设的全连接层中计算两个待匹配串的作者所属机构信息或期刊信息的匹配度。
[0086]
举例而言,对目标学者论文库和任一候选对齐论文簇中待匹配的两篇论文中的org进行匹配时(venue同理),首先采用直接匹配的方法直接进行字符串匹配,即逐个字符进行匹配,判断二者是否完全相同,若完全匹配,则得出两者匹配度为1.0。
[0087]
对于不符合第一步的继续采取以下步骤得出其匹配度。首先将两篇论文中包含org的字符串,即待匹配的两个字符串si,sj分别进行分词处理得到vi和vj,并且从vi中提取关键词序列ki,从vj中提取关键词序列kj。然后,使用bilstm分别获取vi,ki,vj,kj的双向语
序,分别得到其中,可以通过以下公式计算:
[0088][0089][0090]
然后,再计算两个待匹配串(i与j)的org之间v
(1)
和k
(1)
的偏移量d
ij
,具体可以通过以下公式计算:
[0091][0092]
进而,得到两个待匹配串i与j的相似向量s
ij
,并将相似向量放入一个全连接层,通过神经网络去预测两向量之间的相似性,得出两者的匹配度y
ij
。该步骤用公式表示如下所示:
[0093][0094]yij
=linear(s
ij
)。
[0095]
需要说明的是,本步骤中进行匹配的org和venue可以通过步骤103中识别的实体信息中获取。
[0096]
步骤105,结合实体信息和匹配度分别计算每个候选对齐论文簇与目标学者论文库的相似性特征,基于每个候选对齐论文簇对应的全部相似性特征构建对应的相似度向量,并根据相似度向量训练对应的集成学习模型,通过训练完成的集成学习模型判断每个候选对齐论文簇与目标学者论文库是否对齐。
[0097]
其中,集成学习模型可以是集成xgboost模型和梯度提升决策树(gradient boosting decision tree,简称gbdt)模型的神经网络模型。
[0098]
在本技术一个实施例中,为了提高本技术的防止学者论文库过拆分的历史错误纠正方法的精确率和召回率,按照候选对齐论文簇下包含论文数量的多少,将候选对齐论文簇细分为两部分。即根据每个候选对齐论文簇包含论文数量是否超过预设的数量阈值,将全部的候选对齐论文簇划分为第一部分和第二部分,其中,第一部分的候选对齐论文簇包含的论文数量大于等于数量阈值,第二部分的候选对齐论文簇包含的论文数量小于数量阈值,对两部分的论文簇分别进行对齐算。作为一种示例,预设的数量阈值可以为5,即分别对论文大于等于5篇的候选簇和对论文小于5篇的候选簇进行对齐。
[0099]
具体的,对于属于第一部分的每个候选对齐论文簇,计算与目标学者论文库之间的共同作者相似度、共同机构相似度、共同期刊相似度、摘要和标题的词频相似度、杰卡德jaccard相似度、作者的稀缺度、论文发表时间重合度和论文专有名词相似度等相似性特征。
[0100]
对于属于第二部分的每个候选对齐论文簇,计算与目标学者论文库之间的论文的作者所属机构的相似度、论文中的期刊信息的相似度、作者的稀缺度、论文专有名词相似度和论文嵌入之间的相似度等相似性特征。
[0101]
具体实施时,作为第一种示例,对于论文数量大于等于5篇的候选对齐论文簇,任意选取一个,从目标学者论文库和候选对齐论文簇的两个角度计算上述相似性特征。在计算与目标学者论文库的相似性特征时,对于共同作者(coauthor)相似度,通过以下公式计
算得出al、ar:
[0102][0103][0104]
对于共同机构(coorg)相似度,通过以下公式计算得出ol、or,其中,判别是否为共同机构时,可以采用步骤s104中所述的org的匹配算法,此处不再赘述。
[0105][0106][0107]
对于共同期刊(covenue)相似度,通过以下公式计算得出vl、vr,其中,判别是否为共同机构时,可以采用步骤s104中所述的venue匹配算法,此处不再赘述。
[0108][0109][0110]
对于摘要和标题的词频相似度,首先要去除abstract+title内文本的停用词并获取其分词,通过以下公式计算学者库与候选簇之间abstract+title的cosine相似度和jaccard相似度分别为c_s和j_s:
[0111][0112][0113]
对于作者的稀缺度(r_s),通过以下公式计算得出:
[0114]
r_s=sigmoid(共同作者的个数)
[0115]
对于论文发表时间重合度,通过以下公式计算得出tl和tr:
[0116][0117][0118]
对于论文专有名词相似度(pt_s),论文专有名词的获取方式,可以采用步骤s103的方法获取,通过以下公式进行计算:
[0119][0120]
进一步的,根据每个候选对齐论文簇对应的全部相似性特征构建对应的相似度向
量,并根据相似度向量训练对应的集成学习模型,通过训练完成的集成学习模型判断每个候选对齐论文簇与目标学者论文库是否对齐。
[0121]
在本技术一个实施例中,通过训练完成的集成学习模型判断每个候选对齐论文簇与目标学者论文库是否对齐,包括以下步骤,先通过训练完成的集成学习模型对对应的候选对齐论文簇与目标学者论文库的对齐程度进行打分,以获取每个候选对齐论文簇的对齐程度分值,然后将该候选对齐论文簇的对齐程度分值与预设的对齐阈值进行比较,若对齐程度分值大于对齐阈值,则判断该候选对齐论文簇与目标学者论文库对齐。
[0122]
继续参照上述示例,对于该候选对齐论文簇,基于上述计算出的各个相似性特征构建相似度向量v_s=[al,ar,ol,or,vl,vr,c_s,j_r,r_s,tl,tr,pt_s],以及其标签label∈[0,1]。然后将构建的向量放入xgboost&gbdt集成学习模型训练,在训练完成后,通过该模型对目标学者论文库与该候选对齐论文簇的对齐程度进行打分,并与预设的对齐阈值进行比较来判断是否对齐。
[0123]
作为第二种示例,对于论文数量小于5篇的候选对齐论文簇,在计算与目标学者论文库的相似性特征时,对于与目标学者论文库之间的论文的作者所属机构的相似度(_o_s),通过以下公式进行计算:
[0124][0125]
需要说明的是,该候选对齐论文簇与目标学者论文库之间的论文的作者所属机构的相似度,指的是论文簇中所有论文的org(论文的org是指的论文中相关作者的org)与目标学者论文库的待对齐学者的org(即从contact中提取到的org的信息),其中,学者的org的获取方式可以采用步骤s103中的方法获取,判别是否为共同机构的方式可以采用步骤s104中的org匹配算法。
[0126]
对于与目标学者论文库之间的论文中的期刊信息的相似度(_v_s),可以通过以下公式进行计算:
[0127][0128]
其中,学者的venue的获取方式可以采用步骤s103中的方法获取,判别是否为共同期刊的方式可以采用步骤s104中的venue匹配算法。
[0129]
对于作者的稀缺度(_r_s)和论文专有名词相似度(_pt_s),计算方法与论文数量大于等于5篇的候选对齐论文簇的计算方式相同。
[0130]
对于论文嵌入之间的相似度,可以通过oag-bert模型获取目标学者论文库下论文的paper_embeddinge_1和当前候选对齐论文簇下论文的paper_embeddinge_2,再计算e_1与e_2的cosine_similarity得出相似向量,并提取向量的关键一系列数字特征,该一系列数字特征包括其最大值max_、最小值min_、中间值median_、平均值mean_和标准差std_。
[0131]
进一步的,基于上述计算出的各个相似性特征构建相似度向量_v_s=[_o_s,_v_s,_r_s,_pt_s,max_,min_,median_,mean_,std_],以及其标签label∈[0,1]。然后将构建的向量放入xgboost&gbdt集成学习模型训练,在训练完成后,通过该模型对目标学者论文库与该候选对齐论文簇的对齐程度进行打分,并与预设的对齐阈值进行比较来判断是否对
齐。
[0132]
步骤106,将训练完成的集成学习模型判定为对齐的候选对齐论文簇与目标学者论文库进行合并,并对判定为未对齐的论文簇进行人工标注,根据标注结果将误判的论文簇重新放入训练集中,以更新模型精度。
[0133]
具体的,对于对齐的目标学者论文库和候选对齐论文簇进行两两合并,并更新数据库,对模型判定不对齐的论文簇进行人工标注,根据标注结果将误判的论文簇重新放入训练集中。
[0134]
在本技术一个实施例中,对判定为不对齐的论文簇进行人工标注,根据标注结果将误判的论文簇重新放入训练集中,包括:在全部未对齐的论文簇中选取对齐程度分值最高的目标未对齐的论文簇;对目标未对齐的论文簇进行人工标注,判断目标未对齐的论文簇是否分配至目标学者论文库;如果判定目标未对齐的论文簇分配至目标学者论文库,则将目标未对齐的论文簇输入至bert-bi-lstm-crf模型和集成学习模型的训练集中。
[0135]
具体而言,模型判断为未对齐的各个论文簇,取其中的score-top1进行标注,其中,score指的是集成学习模型输出的对齐程度分值,top1指的是对应于目标学者论文库,模型判断出没有对齐的各个论文簇中,对齐程度分值最高的论文簇。如果经过人工标注后判断此簇,即score-top1应该分配给目标学者论文库(即bert-bi-lstm-crf模型和/或集成学习模型产生了误判现象),则通过将误判的论文簇输入至bert-bi-lstm-crf模型和集成学习模型的训练集中去丰富模型的训练样本,进而去更新迭代模型的精度。对于人工标注后仍然判定为不对齐的论文簇,将这些论文簇中的论文重新放回未进行对齐论文簇集合中,以便于后续确定此簇该与哪个学者库对齐。
[0136]
由此,本技术实施例的防止学者论文库过拆分的历史错误纠正方法,判断目标学者论文库与多个待分配的论文簇是否对齐,计算了待匹配论文中的org和venue的匹配度,将之前误拆分为多个的属于同一作者的论文库进行合并,可以对学者论文库中过拆分的历史错误进行纠正。
[0137]
综上所述,本技术实施例的防止学者论文库过拆分的历史错误纠正方法,依据集成的思想,通过过拆分历史错误纠错的方法来解决科技大数据平台下当前名称消歧系统存在的缺陷。该方法通过规则匹配、实体信息提取、论文机构和期刊名称匹配、学者库对齐和人工标注五个操作流程,可以在不损失召回以及精度的前提下,纠正消歧系统运行时的产生的过拆分错误,能够针对亿级别的数据进行历史纠错,提高了过拆分错误纠正的速度、精确度和召回率,并且可适用于不同类型的科技大数据系统平台,具有较高的通用性,有利于完善完善数字图书馆等平台的名称消歧系统。
[0138]
为了更加清楚的说明本技术实施例的防止学者论文库过拆分的历史错误纠正方法,下面结合图3和图4,以在实际应用中结合系统开发的一个具体的实施例进行说明:
[0139]
在本实施例中,首先设计了如图3所示的系统,该系统包括论文簇对齐子系统100、redis数据库200和分布式文件存储子系统mongo300,其中,论文簇对齐子系统100集成了规则匹配模块(rule alignment)110、实体信息提取模块(entity recognition)120、学者库论文机构和期刊名称消歧模块130(org&venue alignment)、学者库对齐模块(paper cluster alignment)140和人工标注模块(check)五个部分组成自动化流程操作。该系统中的模块都相当于是不同类别的容器,相同类别的容器里可以放置一个或多个指定类别的算
法,最终容器的结果由内部算法之间与或逻辑来决定,其中,实体信息提取模块120和学者库论文机构和期刊名称消歧模块130中的模型算法,可以采用离线的方式预先进行训练。分布式文件存储子系统300可以包括多个分布式文件存储的数据库,比如,图3所示的第一分布式文件存储的数据库310和第二分布式文件存储的数据库320。
[0140]
通过该系统中的各模块执行各自的功能,可以实现图4所示的防止学者论文库过拆分的历史错误纠正方法。如图4所示,该方法包括以下步骤:
[0141]
步骤s401:输入学者论文库和待分配论文簇。
[0142]
在本步骤中,在输入之前通过采用局部敏感哈希(lsh)对学者名称进行重新构建,并使用redis进行存储,从而快速匹配待对齐的学者论文库和其待分配论文簇。
[0143]
步骤s402:判断是否可以采用规则直接匹配,若是,则执行步骤s403,若否,则执行步骤s404。
[0144]
步骤s403:直接对齐。
[0145]
在本步骤中,采用email、orcid等能唯一确定作者的信息来直接进行对齐匹配,对于可以直接匹配的待分配论文簇,将该论文簇与学者论文库直接进行对齐,并结束流程。
[0146]
步骤s404:识别contact和abstract中的相关实体信息。
[0147]
在本步骤中,预先定义contact和abstract中的实体信息,从contact中提取作者机构、合作者、研究方向等信息,从abstract中可以提取到其中的专有名词信息。使用bert-bilstm-ctr对预定义的名词使用sci数据集进行预训练,并调整其超参数到最优,近一步提取出预定义的专有名词。
[0148]
步骤s405:对待匹配论文中org和venue进行匹配。
[0149]
此步骤是为了确定org和venue是否为一个或者存在关系,此步骤首先采用字符串匹配进行直接简单匹配,对于不能简单匹配的,采用bilstm模型提取双向序列信息,根据提取到的信息过一个线性层训练得出两两org和venue的相似性。此过程中部分org和venue来源于步骤s404。
[0150]
步骤s406:提取特征根据模型打分取合适阈值来进行对齐。
[0151]
在本步骤中,对数据集进行划分,候选对齐学者库按照其下论文是否大于等于5篇对其进行分开处理。分别提取出对应的一系列特征后,将构建的两类特征矩阵分别放入,xgboost和gbdt所组成的集成学习模型,并选取阈值进行对齐。此过程org和venue的相似度计算采用步骤s405定义的方法。论文专有名词获取方法采用步骤s404中定义的方法。
[0152]
步骤s407:对模型判定不对齐论文簇进行人工标注。
[0153]
在本步骤中,对预测为非对齐的样本,取其score-top1进行标注,判断其是否预测错误,将判断错误的样本重新放入训练集中训练以更新迭代算法,并重新执行步骤s406,对于人工标注后仍然判定为不对齐的论文簇,将这些论文簇中的论文重新放回未进行对齐论文簇集合中,并结束流程。
[0154]
为了实现上述实施例,本技术还提出了一种防止学者论文库过拆分的历史错误纠正系统,图5为本技术实施例所提出的防止学者论文库过拆分的历史错误纠正系统的结构示意图。
[0155]
如图5所示,该系统包括:构建模块100、匹配模块200、识别模块300、第一计算模块400、第二计算模块500和标注模块600。
[0156]
其中,构建模块100,用于通过对学者名称进行重新构建,快速获取目标学者论文库和对应的多个待分配的论文簇。
[0157]
匹配模块200,用于根据能够唯一确定作者的信息对目标学者论文库和待分配的论文簇进行直接匹配,对于直接匹配成功的论文簇进行直接对齐。
[0158]
识别模块300,用于对于直接匹配未成功的论文簇,通过基于转换器的双向编码表征-双向长短记忆网络-条件随机场bert-bi-lstm-crf模型,识别论文簇和目标学者论文库中的论文的作者相关信息和摘要中的实体信息。
[0159]
第一计算模块400,用于分别计算目标学者论文库和候选对齐论文簇中待匹配的论文包括的作者所属机构信息的匹配度和期刊信息的匹配度。
[0160]
第二计算模块500,用于结合实体信息和匹配度分别计算每个候选对齐论文簇与目标学者论文库的相似性特征,基于每个候选对齐论文簇对应的全部相似性特征构建对应的相似度向量,并根据相似度向量训练对应的集成学习模型,通过训练完成的集成学习模型判断每个候选对齐论文簇与目标学者论文库是否对齐。
[0161]
标注模块600,用于将训练完成的集成学习模型判定为对齐的候选对齐论文簇与目标学者论文库进行合并,并对判定为未对齐的论文簇进行人工标注,根据标注结果将误判的论文簇重新放入训练集中,以更新模型精度。
[0162]
可选地,在本技术的一个实施例中,识别模块300,具体包括:确定单元,用于确定预先命名的实体信息,所述实体信息包括预先定义的专有名词信息;转换单元,用于通过基于转换器的双向编码表征bert模型将作者相关信息和摘要中的每个句子的各个单字进行向量化表示,生成字向量序列;生成单元,用于将字向量序列输入到双向长短记忆网络bilstm模型中提取词语的上下文信息,生成作者相关信息和摘要的序列信息;计算单元,用于通过条件随机场crf模型计算每个所述序列信息的条件概率,并输出对应不同的实体信息的最大概率的序列;模型训练单元,用于控制转换单元、生成单元和计算单元重复执行自身的功能,通过调节模型的结构和超参数,训练bert-bi-lstm-crf模型;提取单元,用于通过训练完成的bert-bi-lstm-crf模型提取预先命名的实体信息。
[0163]
在本技术的一个实施例中,第一计算模块400,具体用于:将待匹配的论文中包含作者所属机构信息或期刊信息的待匹配串直接进行字符串匹配;对于匹配度在预设的匹配度阈值以下的两个待匹配串分别进行分词处理,从每个分词序列中提取对应的关键词序列;通过双向长短记忆网络bilstm模型分别获取每个分词序列和每个关键词序列的双向语序;计算两个待匹配串的作者机构或期刊的分词序列的双向语序和关键词序列的双向语序的偏移量;基于每个所述分词序列的双向语序、每个关键词序列的双向语序、分词序列的双向语序的偏移量和关键词序列的双向语序的偏移量,确定两个待匹配串的相似向量;将相似向量输入至预设的全连接层中计算两个待匹配串的作者所属机构信息或期刊信息的匹配度。
[0164]
可选地,在本技术的一个实施例中,第二计算模块500具体用于:根据每个候选对齐论文簇包含论文数量是否超过预设的数量阈值,将全部的候选对齐论文簇划分为第一部分和第二部分,其中,第一部分的候选对齐论文簇包含的论文数量大于等于数量阈值,第二部分的候选对齐论文簇包含的论文数量小于数量阈值;对于属于第一部分的每个候选对齐论文簇,计算与目标学者论文库之间的共同作者相似度、共同机构相似度、共同期刊相似
度、摘要和标题的词频相似度、杰卡德jaccard相似度、作者的稀缺度、论文发表时间重合度和论文专有名词相似度;对于属于第二部分的每个候选对齐论文簇,计算与目标学者论文库之间的论文的作者所属机构的相似度、论文中的期刊信息的相似度、作者的稀缺度、论文专有名词相似度和论文嵌入之间的相似度。
[0165]
可选地,在本技术的一个实施例中,第二计算模块500还用于:通过训练完成的集成学习模型对对应的候选对齐论文簇与目标学者论文库的对齐程度进行打分,以获取每个候选对齐论文簇的对齐程度分值;将任一候选对齐论文簇的对齐程度分值与预设的对齐阈值进行比较,若对齐程度分值大于所述对齐阈值,则判断任一候选对齐论文簇与目标学者论文库对齐。
[0166]
可选地,在本技术的一个实施例中,第二计算模块500还用于:在全部未对齐的论文簇中选取对齐程度分值最高的目标未对齐的论文簇;对目标未对齐的论文簇进行人工标注,判断目标未对齐的论文簇是否分配至目标学者论文库;如果判定目标未对齐的论文簇分配至目标学者论文库,则将目标未对齐的论文簇输入至bert-bi-lstm-crf模型和集成学习模型的训练集中。
[0167]
可选地,在本技术的一个实施例中,构建模块100具体用于:通过局部敏感哈希lsh对学者名称进行重新构建,其中,对于存在中文名的学者名先用所述中文名进行区分。
[0168]
可选地,在本技术的一个实施例中,构建模块100还用于:对获取的包含目标学者论文库和对应的多个待分配的论文簇的数据进行数据清洗,数据清洗包括:删除数据中的空白字段和超文本标记语音html标签文本信息。
[0169]
综上所述,本技术实施例的防止学者论文库过拆分的历史错误纠正系统,该系统依据集成的思想,通过过拆分历史错误纠错的方法来解决科技大数据平台下当前名称消歧系统存在的缺陷。该系统包括规则匹配、实体信息提取、论文机构和期刊名称匹配、学者库对齐和人工标注五个部分,可以在不损失召回以及精度的前提下,纠正消歧系统运行时的产生的过拆分错误,能够针对亿级别的数据进行历史纠错,提高了过拆分错误纠正的速度、精确度和召回率,并且可适用于不同类型的科技大数据系统平台,具有较高的通用性,有利于完善完善数字图书馆等平台的名称消歧系统。
[0170]
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本技术第一方面实施例所述的一种防止学者论文库过拆分的历史错误纠正方法。
[0171]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,若在多个实施例或示例中采用了对上述术语的示意性表述,不代表这些实施例或示例是相同的。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0172]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
[0173]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0174]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0175]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0176]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0177]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0178]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
转载请注明原文地址: https://www.8miu.com/read-577.html

最新回复(0)