基于人工智能的文本信息搜索方法及装置、设备、介质与流程

allin2022-09-03  152



1.本技术涉及一种人工智能技术领域,特别是涉及一种基于人工智能的文本信息搜索方法及装置、设备、介质。


背景技术:

2.随着自然语言技术的发展,在不同应用场景中基于词语进行搜索相关信息已经逐步依赖于人工智能算法进行实现,尤其是,用户通常会通过录入文字词语等文本内容进行搜索信息,此时,执行端会通过算法模型对文字词语等进行搜索,从而搜索得到匹配的信息。
3.目前,现有在搜索信息过程中,算法模型会将目标搜索信息进行纠错和同义词转换,并召回修正后的搜索信息。但是,在较多的应用场景中,用户对于搜索信息的意图是具有发散性的,如,用户在搜索“牛奶”时候,除了召回与“牛奶”相关的内容外,可能存在需要搜索面包、补钙、乳糖等信息,而仅仅基于明确的搜索词语不会进行搜索范围以及搜索内容上的扩展,从而会导致搜索得到的搜索信息范围较小,无法满足用户的多样化搜索需求,从而影响搜索的准确性以及有效性。


技术实现要素:

4.有鉴于此,本技术提供一种基于人工智能的文本信息搜索方法及装置、设备、介质,主要目的在于解决现有文本信息搜索准确性差的问题。
5.依据本技术一个方面,提供了一种基于人工智能的文本信息搜索方法,包括:
6.获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;
7.通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;
8.基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息。
9.进一步地,所述获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息之前,所述方法还包括:
10.获取全局文本信息,所述全局文本信息为一个搜索领域内的全部文本内容;
11.基于已完成模型训练的搜索提取模型从所述全局文本信息中提取主题词,所述主题词包括多个词语;
12.构建所述主题词的主题词向量,所述主题词向量由多个词语在所述全局文本信息中的权重值组成。
13.进一步地,所述通过所述目标词语的第一权重向量与所述目标文本信息的第二权
重向量与主题词向量分别进行相乘处理之前,所述方法还包括:
14.基于第一词向量模型从所述全局文本信息中提取所述目标词语的第一权重向量,所述第一权重向量为所述目标词语处于所述所述全局文本信息中的分布权重;
15.基于第二词向量模型从所述全局文本信息中提取所述目标文本信息的第二权重向量,所述第二权重向量为所述目标文本信息处于全局文本信息中的分布权重。
16.进一步地,所述从所述全局文本信息中确定与所述目标词语匹配的目标文本信息包括:
17.获取预设词语文本关联关系,所述预设词语文本关联关系中包含不同词语与不同文本信息之间的权重映射关系;
18.基于所述第一权重向量的矩阵值,从所述预设词语文本关联关系中查找到与所述目标词语匹配的目标文本信息。
19.进一步地,所述基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息包括:
20.基于向量规约算法对所述第一加权主题向量以及所述第二加权主题向量进行规约处理;
21.计算完成规约处理的所述第一加权主题向量以及所述第二加权主题向量之间的相似度值,并对所述相似度值进行排序;
22.将排序符合预设个数的相似度值所对应的目标文本信息确定为搜索得到的文本信息。
23.进一步地,所述方法还包括:
24.若计算得到的所述相似度值小于预设相似度阈值,则调取搜索领域内预先配置的推荐文本信息,以作为辅助搜索文本内容进行输出。
25.进一步地,所述基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息之后,所述方法还包括:
26.提取待输出所述文本信息的输出链路,所述输出链路连通于前端界面中预先配置的输出文本框;
27.通过所述输出链路在所述输出文本框中,按照滚动方式输出所述文本信息。
28.依据本技术另一个方面,提供了一种基于人工智能的文本信息搜索装置,包括:
29.获取模块,用于获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;
30.处理模块,通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;
31.确定模块,用于基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息。
32.进一步地,所述装置还包括:提取模块,构建模块,
33.所述获取模块,还用于获取全局文本信息,所述全局文本信息为一个搜索领域内的全部文本内容;
34.所述提取模块,用于基于已完成模型训练的搜索提取模型从所述全局文本信息中提取主题词,所述主题词包括多个词语;
35.所述构建模块,用于构建所述主题词的主题词向量,所述主题词向量由多个词语在所述全局文本信息中的权重值组成。
36.进一步地,所述提取模块,还用于基于第一词向量模型从所述全局文本信息中提取所述目标词语的第一权重向量,所述第一权重向量为所述目标词语处于所述所述全局文本信息中的分布权重;
37.所述提取模块,还用于基于第二词向量模型从所述全局文本信息中提取所述目标文本信息的第二权重向量,所述第二权重向量为所述目标文本信息处于全局文本信息中的分布权重。
38.进一步地,所述获取模块包括:
39.获取单元,用于获取预设词语文本关联关系,所述预设词语文本关联关系中包含不同词语与不同文本信息之间的权重映射关系;
40.查找单元,用于基于所述第一权重向量的矩阵值,从所述预设词语文本关联关系中查找到与所述目标词语匹配的目标文本信息。
41.进一步地,所述确定模块包括:
42.处理单元,用于基于向量规约算法对所述第一加权主题向量以及所述第二加权主题向量进行规约处理;
43.计算单元,用于计算完成规约处理的所述第一加权主题向量以及所述第二加权主题向量之间的相似度值,并对所述相似度值进行排序;
44.确定单元,用于将排序符合预设个数的相似度值所对应的目标文本信息确定为搜索得到的文本信息。
45.进一步地,所述装置还包括:
46.调取模块,若计算得到的所述相似度值小于预设相似度阈值,则调取搜索领域内预先配置的推荐文本信息,以作为辅助搜索文本内容进行输出。
47.进一步地,所述装置还包括:输出模块,
48.所述提取模块,还用于提取待输出所述文本信息的输出链路,所述输出链路连通于前端界面中预先配置的输出文本框;
49.所述输出模块,用于通过所述输出链路在所述输出文本框中,按照滚动方式输出所述文本信息。
50.根据本技术的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述基于人工智能的文本信息搜索方法对应的操作。
51.根据本技术的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
52.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于人工智能的文本信息搜索方法对应的操作。
53.借由上述技术方案,本技术实施例提供的技术方案至少具有下列优点:
54.本技术提供了一种基于人工智能的文本信息搜索方法及装置、设备、介质,与现有技术相比,本技术实施例通过获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息,扩大了词语的搜索范围,大大提高了词语的搜索准确性以及效率,从而满足用户多样化的搜索需求。
55.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
56.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
57.图1示出了本技术实施例提供的一种基于人工智能的文本信息搜索方法流程图;
58.图2示出了本技术实施例提供的另一种基于人工智能的文本信息搜索方法流程图;
59.图3示出了本技术实施例提供的又一种基于人工智能的文本信息搜索方法流程图;
60.图4示出了本技术实施例提供的再一种基于人工智能的文本信息搜索方法流程图;
61.图5示出了本技术实施例提供的一种基于人工智能的文本信息搜索装置组成框图;
62.图6示出了本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
63.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
64.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
65.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深
度学习等几大方向。
66.针对在搜索信息过程中,算法模型会将目标搜索信息进行纠错和同义词转换,并召回修正后的搜索信息。但是,在较多的应用场景中,用户对于搜索信息的意图是具有发散性的,如,用户在搜索“牛奶”时候,除了召回与“牛奶”相关的内容外,可能存在需要搜索面包、补钙、乳糖等信息,而仅仅基于明确的搜索词语不会进行搜索范围以及搜索内容上的扩展,从而会导致搜索得到的搜索信息范围较小,无法满足用户的多样化搜索需求,从而影响搜索的准确性以及有效性,本技术实施例提供了一种基于人工智能的文本信息搜索方法,如图1所示,该方法包括:
67.101、获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息。
68.本技术实施例中,当前执行端可以作为对文本信息进行搜索的终端或服务端,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。文本信息适用的应用场景包括但不限于智能医疗系统中的病例文本内容、搜索引擎中的搜索文本内容等,文本内容可以为中文、也可以为英文或其他语种文字内容,同时,待搜索的目标词语可以为用户在终端进行录入的,也可以为服务端中预先存储的,针对不同的应用场景本技术实施例不做具体限定。其中,全局文本信息为一个搜索领域内的全部文本内容,例如,若搜索范围为智能医疗系统,则对应的全局文本信息为智能医疗系统中所存储的全部病例信息,若搜索范围为某论文搜索引擎,则对应的全局文本信息为某论文搜索引擎中所存储的全部论文信息,本技术实施例不做具体限定。
69.需要说明的是,本技术实施例中,为了提高基于目标词语搜索文本信息的效率,获取到待搜索的目标词语后,先从全局文本信息中确定与目标词语匹配的至少一个目标文本信息,此时,多个目标文本信息为预期搜索文本信息的范围,确定的方式可以包括基于目标词语的标记次数进行词语匹配,例如,目标词语为糖尿病,则确定患有糖尿病患者的病例作为目标文本信息;还可以基于目标词语的语种进行匹配分类,例如,目标词语为中文,则确定搜索库中的中文为目标文本信息;还可以基于目标词语的词语含义进行情感分类匹配等,本技术实施例不做具体限定。
70.102、通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量。
71.本技术实施例中,主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容,其中,主题词为全局文本信息中表征一相同上位含义或分类的词语,主题词包括多个词语,例如,主题词包括但不限于为情感、事物、行动等,对应的主题词1-情感中包括孤独、自由、迷茫、坚强等,主题词2-事物中包括生命、路、天空、孩子等,主题词3-行动中包括爱、碎、哭、死等,本技术实施例不做具体限定。主题词向量由多个词语的权重组成,不同词语在全局文本信息中预先计算得到不同的权重值,从而组成主题词向量,即主题词向量中的元素值为不同词语的权重值。
72.需要说明的是,第一权重向量为目标词语相对于全局文信息中的权重向量值,第二权重向量为目标文本信息相对于全局文本信息的权重向量值,此时的第一权重向量、第
二权重向量可以分别基于word2vec词向量提取模型进行提取,本技术实施例不做具体限定。确定第一权重向量、第二权重向量后,分别与主题词向量进行相乘处理,得到目标词语的第一加权主题向量,以及目标文本信息的第二加权主题向量。
73.例如,目标词语的第一权重向量为[0.12,0.08,0.05,...],主题词向量1为主题词向量2为主题词向量3为分别与目标词语的第一权重向量相乘,得到第一加权主题向量
[0074]
103、基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息。
[0075]
本技术实施例中,为了从目标文本信息中搜索到与搜索词最优匹配的文本信息,计算第一加权主题向量与第二加权主题向量的相似度值,从而基于相似度值确定搜索到的文本信息。例如,选取相似度靠前的第二加权主题向量所对应的目标文本信息作为搜索到的文本信息,还可以选取相似度符合预设相似度阈值的第二加权主题向量所对应的目标文本信息作为搜索到的文本信息,本技术实施例不做具体限定。
[0076]
在另一个本技术实施例中,为了进一步限定及说明,如图2所示,步骤获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息之前,所述方法还包括:
[0077]
201、获取全局文本信息;
[0078]
202、基于已完成模型训练的搜索提取模型从所述全局文本信息中提取主题词;
[0079]
203、构建所述主题词的主题词向量。
[0080]
为了准确利用主题词向量与目标词语、目标文本信息进行相乘处理,预先构建主题词向量,具体的,首先获取全局文本信息,从而基于搜索提取模型从全局文本信息中提取主题词,以构建主题词向量。其中,述主题词包括多个词语,所述全局文本信息为一个搜索领域内的全部文本内容,包括但不限于智能医疗领域、论文搜索等,此时,全局文本信息为存储在当前执行端中,并与不同的领域具有匹配的对应关系,从而获取不同应用领域的全局文本信息,本技术实施例不做具体限定。获取全局文本信息后,基于已完成模型训练的搜索提取模型从全局文本信息中提取主题词,此时,主题词向量由多个词语在全局文本信息中的权重值组成。具体的,预先基于全局文本样本数据完成搜索提取模型的学习训练,搜索提取模型可以为对文本或词语主体进行解析提取的模型,如lda(latent dirichlet allocation)模型,从而基于搜索提取模型在全局文本信息中提取所有标签的top主题,以及每个主题中的单词分布,即每个主题词中的多个词语处于全局文本信息中的概率分布,
如0-1分布,作为词权重。另外,在基于搜索模型进行主题词提取之前,还需要基于自然语言处理技术中的word2vec、transformer或rnn等词向量模型获取全局文本信息中每个单词的向量元素,即embedding向量,从而结合主题词中的多个词语的单词分布和单词的embedding向量将每个主题词转换为主题词向量。例如,利用lda模型提取全局文本信息中的主题词(以向量形式表征),主题词个数可以在训练模型时配置为256,得到每个主题词所分别包含的多个词语,如每个主题词表示为:
[0081]
主题词1(情感):0.3*孤独+0.1*自由+0.1*迷茫+0.05*坚强+

[0082]
主题词2(事物):0.2*生命+0.15*路+0.15*天空+0.02*孩子+

[0083]
主题词3(行动):0.15*爱+0.12*碎+0.12*哭+0.1*死+

;其中,0.3、0.1、0.1、0.05...为孤独、自由、迷茫、坚强...的词权重,可以通过上述的主题词所包含的多个词语以及词语的embedding向量得到主题词向量,此时,若基于word2vec模型提取出主题词1中每个词语的embedding,如孤独:[0.2,0.15,0.1,

,0.35];自由:[0.1,0.3,0.3,

,0.3];迷茫:[0.2,0.15,0.12,

,0.04];坚强:[0.1,0.05,0.14,

,0.04]...,从而基于词权重以及embedding向量,
[0084][0085]
通过上述计算方式,
[0086]
得到全部主题词向量,如:
[0087]
主题1(情感):[0.143,0.189,0.031,

,0.121];
[0088]
主题2(事物):[0.031,0.167,0.171,

,0.172];
[0089]
主题3(行动):[0.125,0.026,0.163,

,0.168]...。
[0090]
在另一个本技术实施例中,为了进一步限定及说明,如图3所示,步骤通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理之前,所述方法还包括:
[0091]
301、基于第一词向量模型从所述全局文本信息中提取所述目标词语的第一权重向量;
[0092]
302、基于第二词向量模型从所述全局文本信息中提取所述目标文本信息的第二权重向量。
[0093]
由于所要搜索的词语需要转换为向量形式,从而进行模型运算等处理,并且,为了实现基于目标词语的第一权重向量以及目标文本信息的第二权重向量与主题词向量进行相乘,预先基于第一词向量模型对从全局文本信息中提取目标词语的第一权重向量,此时,第一权重向量为目标词语处于所述所述全局文本信息中的分布权重,即词权重。同时,基于第二词向量模型从全局文信息中提取目标文本信息的第二权重向量,此时,第二权重向量为目标文本信息处于全局文本信息中的分布权重,即文本权重。其中,第一词向量模型与第
二词向量模型分别可以为基于word2vec、transformer或rnn等词向量模型进行预训练得到的,因此,在进行第一权重向量与第二权重向量的提取前,需要对第一词向量模型与第二词向量模型进行全局文本信息的模型训练,以分别将目标词语、目标文本信息作为模型输入参数进行处理,得到第一权重向量以及第二权重向量,本技术实施例对具体的训练过程不做具体限定。
[0094]
在另一个本技术实施例中,为了进一步限定及说明,步骤从所述全局文本信息中确定与所述目标词语匹配的目标文本信息包括:获取预设词语文本关联关系;基于所述第一权重向量的矩阵值,从所述预设词语文本关联关系中查找到与所述目标词语匹配的目标文本信息。
[0095]
为了提高在全局文本信息中进行搜索文本信息的准确性,在确定目标文本信息时,具体的,可以预先配置一个词语文本关联关系,从而基于此预设词语文本关联关系查找与目标词语匹配的目标文本信息,从而缩小预期搜索到文本信息的搜索范围。其中,所述预设词语文本关联关系中包含不同词语与不同文本信息之间的权重映射关系,此时的权重映射关系可以基于不同全局文本信息的不同而配置不同,例如,智能医疗系统中,儿童与自由相关文本信息的权重映射关系表征为0.1,在论文搜索系统中,儿童与自由相关文本信息的权重映射关系表征为0.6,从而在查找目标词语的目标文本信息时,针对不同的场景领域找到不同目标文本信息,大大缩小了文本信息的搜索范围。
[0096]
需要说明的是,为了准确查找到与目标词语匹配的目标文本信息,并且由于第一权重向量为目标词语提取词语分布得到的,因此,具体的通过计算第一权重向量的矩阵值,与预设词语文本关联关系中相关文本信息的权重映射关系表征值大于0.5的权重映射关进行相乘,若得到的数值大于0.5,则确定此相关文本信息作为目标文本信息。例如,计算第一权重向量的矩阵值为0.8,则匹配目标词语的相关文本信息1、相关文本信息2分别对应的权重映射关系分别表征为0.7、0.4,分别进行相乘后,相比文本信息1与矩阵值相乘结果大于0.5,则相关文本信息1作为与目标词语匹配的目标文本信息,本技术实施例不做具体限定。
[0097]
在另一个本技术实施例中,为了进一步限定及说明,步骤基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息包括:基于向量规约算法对所述第一加权主题向量以及所述第二加权主题向量进行规约处理;计算完成规约处理的所述第一加权主题向量以及所述第二加权主题向量之间的相似度值,并对所述相似度值进行排序;将排序符合预设个数的相似度值所对应的目标文本信息确定为搜索得到的文本信息。
[0098]
本技术实施例中,为了实现准确计算第一加权主题向量与第二加权主题向量之间的相似度,以从目标文本信息中确定出作为搜索结果的文本信息,具体的,基于向量规约算法对第一权重向量以及第二权重向量进行规约处理,从而计算完成规约处理的第一权重向量以及第二权重向量之间的相似度值,大大提高了相似度值计算的准确性。其中,向量规约算法可以为神经网络模型、卷积神经网络模型、支持向量机模型等,本技术实施例不做具体限定。完成规约处理后,此时由于第一加权主题向量、第二加权主题向量为第一权重向量、第二权重向量分别与主题词向量相乘得到的,则计算第一加权主题向量以及第二加权主题向量之间的相似度值,即可以为向量之间的欧式距离,从而得到相似度值,并进行依次排序。其中,预先配置一个预设个数,如2,或3个,作为从排序后的目标文本中筛选搜索得到的
文本信息的依据,本技术实施例不做具体限定。
[0099]
在另一个本技术实施例中,为了进一步限定及说明,步骤还包括:若计算得到的所述相似度值小于预设相似度阈值,则调取搜索领域内预先配置的推荐文本信息。
[0100]
为了在相似度值小于预设相似度阈值时,仍可以实现文本信息的搜索推送,本技术实施例中,若计算得到的相似度值小于预设相似度阈值,则调取搜索领域内预先配置的推荐文本信息,以作为辅助搜索文本内容进行输出。其中,预先为不同搜索领域配置推荐文本信息,此时,推荐文本信息的选取可以为人为选取,可以为随机从全局文本信息中抽取任意文本信息作为推荐文本信息,本技术实施例不做具体限定。
[0101]
在另一个本技术实施例中,为了进一步限定及说明,如图4所示,步骤基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息之后,所述方法还包括:
[0102]
401、提取待输出所述文本信息的输出链路;
[0103]
402、通过所述输出链路在所述输出文本框中,按照滚动方式输出所述文本信息。
[0104]
为了便于对搜索的文本信息进行输出,从而实现高效且灵活的文本信息展示方式,在确定作为搜索得到的文本信息后,提取输出此文本信息的输出链路,以便通过所述输出链路在输出文本框中输出文本信息。其中,所述输出链路连通于前端界面中预先配置的输出文本框,可以预先配置输出链路连接于前端界面中不同位置的输出文本框,针对不同文本信息可以匹配不同的输出链路,从而实现灵活的选取输出文本框。另外,为了满足用户的查看多样化效果,在输出文本框中输出文本信息时,可以以滚动方式实现,即通过调整在输出文本框中展示词语的大小,来依次上下或左右方向滚动展示全部的文本信息,本技术实施例中对于滚动的速度不做具体限定。
[0105]
本技术实施例提供了一种基于人工智能的文本信息搜索方法,与现有技术相比,本技术实施例通过获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息,扩大了词语的搜索范围,大大提高了词语的搜索准确性以及效率,从而满足用户多样化的搜索需求。
[0106]
进一步的,作为对上述图1所示方法的实现,本技术实施例提供了一种基于人工智能的文本信息搜索装置,如图5所示,该装置包括:
[0107]
获取模块51,用于获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;
[0108]
处理模块52,通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;
[0109]
确定模块53,用于基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息。
[0110]
进一步地,所述装置还包括:提取模块,构建模块,
[0111]
所述获取模块,还用于获取全局文本信息,所述全局文本信息为一个搜索领域内的全部文本内容;
[0112]
所述提取模块,用于基于已完成模型训练的搜索提取模型从所述全局文本信息中提取主题词,所述主题词包括多个词语;
[0113]
所述构建模块,用于构建所述主题词的主题词向量,所述主题词向量由多个词语在所述全局文本信息中的权重值组成。
[0114]
进一步地,所述提取模块,还用于基于第一词向量模型从所述全局文本信息中提取所述目标词语的第一权重向量,所述第一权重向量为所述目标词语处于所述所述全局文本信息中的分布权重;
[0115]
所述提取模块,还用于基于第二词向量模型从所述全局文本信息中提取所述目标文本信息的第二权重向量,所述第二权重向量为所述目标文本信息处于全局文本信息中的分布权重。
[0116]
进一步地,所述获取模块包括:
[0117]
获取单元,用于获取预设词语文本关联关系,所述预设词语文本关联关系中包含不同词语与不同文本信息之间的权重映射关系;
[0118]
查找单元,用于基于所述第一权重向量的矩阵值,从所述预设词语文本关联关系中查找到与所述目标词语匹配的目标文本信息。
[0119]
进一步地,所述确定模块包括:
[0120]
处理单元,用于基于向量规约算法对所述第一加权主题向量以及所述第二加权主题向量进行规约处理;
[0121]
计算单元,用于计算完成规约处理的所述第一加权主题向量以及所述第二加权主题向量之间的相似度值,并对所述相似度值进行排序;
[0122]
确定单元,用于将排序符合预设个数的相似度值所对应的目标文本信息确定为搜索得到的文本信息。
[0123]
进一步地,所述装置还包括:
[0124]
调取模块,若计算得到的所述相似度值小于预设相似度阈值,则调取搜索领域内预先配置的推荐文本信息,以作为辅助搜索文本内容进行输出。
[0125]
进一步地,所述装置还包括:输出模块,
[0126]
所述提取模块,还用于提取待输出所述文本信息的输出链路,所述输出链路连通于前端界面中预先配置的输出文本框;
[0127]
所述输出模块,用于通过所述输出链路在所述输出文本框中,按照滚动方式输出所述文本信息。
[0128]
本技术实施例提供了一种基于人工智能的文本信息搜索方法,与现有技术相比,本技术实施例通过获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;基于所述第一加权主题向量与所述第二加权主题向量的相似
度值确定作为搜索得到的文本信息,扩大了词语的搜索范围,大大提高了词语的搜索准确性以及效率,从而满足用户多样化的搜索需求。
[0129]
根据本技术一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于人工智能的文本信息搜索方法。
[0130]
图6示出了根据本技术一个实施例提供的一种计算机设备的结构示意图,本技术具体实施例并不对计算机设备的具体实现做限定。
[0131]
如图6所示,该计算机设备可以包括:处理器(processor)602、通信接口(communications interface)604、存储器(memory)606、以及通信总线608。
[0132]
其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
[0133]
通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。
[0134]
处理器602,用于执行程序610,具体可以执行上述基于人工智能的文本信息搜索方法实施例中的相关步骤。
[0135]
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
[0136]
处理器602可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本技术实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0137]
存储器606,用于存放程序610。存储器606可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0138]
程序610具体可以用于使得处理器602执行以下操作:
[0139]
获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;
[0140]
通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;
[0141]
基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息。
[0142]
显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
[0143]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本技术的保护范围之内。

技术特征:
1.一种基于人工智能的文本信息搜索方法,其特征在于,包括:获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息。2.根据权利要求1所述的方法,其特征在于,所述获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息之前,所述方法还包括:获取全局文本信息,所述全局文本信息为一个搜索领域内的全部文本内容;基于已完成模型训练的搜索提取模型从所述全局文本信息中提取主题词,所述主题词包括多个词语;构建所述主题词的主题词向量,所述主题词向量由多个词语在所述全局文本信息中的权重值组成。3.根据权利要求2所述的方法,其特征在于,所述通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理之前,所述方法还包括:基于第一词向量模型从所述全局文本信息中提取所述目标词语的第一权重向量,所述第一权重向量为所述目标词语处于所述所述全局文本信息中的分布权重;基于第二词向量模型从所述全局文本信息中提取所述目标文本信息的第二权重向量,所述第二权重向量为所述目标文本信息处于全局文本信息中的分布权重。4.根据权利要求1所述的方法,其特征在于,所述从所述全局文本信息中确定与所述目标词语匹配的目标文本信息包括:获取预设词语文本关联关系,所述预设词语文本关联关系中包含不同词语与不同文本信息之间的权重映射关系;基于所述第一权重向量的矩阵值,从所述预设词语文本关联关系中查找到与所述目标词语匹配的目标文本信息。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息包括:基于向量规约算法对所述第一加权主题向量以及所述第二加权主题向量进行规约处理;计算完成规约处理的所述第一加权主题向量以及所述第二加权主题向量之间的相似度值,并对所述相似度值进行排序;将排序符合预设个数的相似度值所对应的目标文本信息确定为搜索得到的文本信息。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:若计算得到的所述相似度值小于预设相似度阈值,则调取搜索领域内预先配置的推荐文本信息,以作为辅助搜索文本内容进行输出。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息之后,所述方法还包括:提取待输出所述文本信息的输出链路,所述输出链路连通于前端界面中预先配置的输出文本框;通过所述输出链路在所述输出文本框中,按照滚动方式输出所述文本信息。8.一种基于人工智能的文本信息搜索装置,其特征在于,包括:获取模块,用于获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;处理模块,通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;确定模块,用于基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于人工智能的文本信息搜索方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于人工智能的文本信息搜索方法的步骤。

技术总结
本申请公开了一种基于人工智能的文本信息搜索方法及装置、设备、介质,涉及人工智能技术领域,主要目的在于解决现有文本信息搜索准确性差的问题。包括:获取待搜索的目标词语,并从所述全局文本信息中确定与所述目标词语匹配的至少一个目标文本信息;通过所述目标词语的第一权重向量与所述目标文本信息的第二权重向量与主题词向量分别进行相乘处理,得到第一加权主题向量以及第二加权主题向量,所述主题词向量为通过已完成模型训练的搜索提取模型在所述全局文本信息中提取多个主题词得到的向量内容;基于所述第一加权主题向量与所述第二加权主题向量的相似度值确定作为搜索得到的文本信息。到的文本信息。到的文本信息。


技术研发人员:刘金勇
受保护的技术使用者:康键信息技术(深圳)有限公司
技术研发日:2022.04.25
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-3068.html

最新回复(0)