1.本技术涉及计算机技术领域,尤其涉及一种视频内容推送方法、一种视频内容推送装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。
背景技术:2.在信息技术飞速发展的时代,人们越来越热衷于通过观看视频,例如短视频,来获取信息资讯。目前,在为人们推荐视频内容时,可以由运营人员人为地筛选并选择推送的视频,或者按照视频的播放量、转发量或点赞量筛选推送的视频,这些推送方式无法满足人们的实际需求,准确性较低。
技术实现要素:3.本技术实施例提供了一种视频内容推送方法、装置及相关设备,可以提高视频内容推送的准确性。
4.一方面,本技术实施例提供了一种视频内容推送方法,所述方法包括:
5.获取针对目标对象的视频内容推送请求,所述视频内容推送请求包括与热点事件相关的描述文本;
6.根据所述描述文本与m个待匹配视频的视频文本信息之间的相似度,从所述m个待匹配视频中召回n个候选视频,所述m和所述n为正整数;
7.根据所述n个候选视频的发布时间,对所述n个候选视频的视频文本信息与所述描述文本之间的相似度进行时间浓度分析,确定目标时间段;
8.根据所述目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定所述每个候选视频的相似度阈值;
9.分别对所述每个候选视频的视频文本信息与所述描述文本之间的相似度,以及所述每个候选视频的相似度阈值进行阈值比较处理,确定与所述描述文本匹配的候选视频,向所述目标对象推送与所述描述文本匹配的候选视频。
10.一方面,本技术实施例提供了一种视频内容推送装置,所述装置包括:
11.获取单元,用于获取针对目标对象的视频内容推送请求,所述视频内容推送请求包括与热点事件相关的描述文本;
12.处理单元,用于根据所述描述文本与m个待匹配视频的视频文本信息之间的相似度,从所述m个待匹配视频中召回n个候选视频,所述m和所述n为正整数;
13.所述处理单元,还用于根据所述n个候选视频的发布时间,对所述n个候选视频的视频文本信息与所述描述文本之间的相似度进行时间浓度分析,确定目标时间段;
14.所述处理单元,还用于根据所述目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定所述每个候选视频的相似度阈值;
15.所述处理单元,还用于分别对所述每个候选视频的视频文本信息与所述描述文本之间的相似度,以及所述每个候选视频的相似度阈值进行阈值比较处理,确定与所述描述
文本匹配的候选视频,向所述目标对象推送与所述描述文本匹配的候选视频。
16.一方面,本技术实施例提供了一种计算机设备,该计算机设备包括处理器、通信接口和存储器,该处理器、通信接口和存储器相互连接,其中,该存储器存储有计算机程序,该处理器用于调用该计算机程序,执行上述任一可能实现方式的视频内容推送方法。
17.一方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现该任一可能实现方式的视频内容推送方法。
18.相应地,本技术实施例还提供了一种计算机程序产品,上述计算机程序产品包括计算机程序或计算机指令,上述计算机程序或计算机指令被处理器执行实现本技术实施例提供的视频内容推送方法的步骤。
19.相应地,本技术实施例还提供了一种计算机程序,上述计算机程序包括计算机指令,上述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行本技术实施例提供的视频内容推送方法。
20.采用本技术的方法,可以获取针对目标对象的视频内容推送请求,该视频内容推送请求包括与热点事件相关的描述文本,利用候选视频的视频文本信息和描述文本之间的相似度进行时间浓度分析,挖掘出目标时间段内的候选视频的视频文本信息,利用目标时间段内的候选视频的视频文本信息进行阈值识别处理,为每个候选视频设置个性化的相似度阈值,以精准匹配出与描述文本相匹配的候选视频,提高视频内容推送的准确性。
附图说明
21.为了更清楚地说明本技术实施例技术方法,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1为本技术实施例提供的一种视频内容推送系统的系统架构示意图;
23.图2为本技术实施例提供的一种视频内容推送方法的流程示意图一;
24.图3为本技术实施例提供的一种视频内容推送方法的流程示意图二;
25.图4为本技术实施例提供的一种时间浓度曲线的示意图;
26.图5为本技术实施例提供的一种视频内容推送方法的流程示意图三;
27.图6为本技术实施例提供的一种视频内容推送装置的结构示意图;
28.图7为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图,对本技术实施例中的技术方法进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
30.需要说明的是,本技术实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因
此,限定有“第一”、“第二”等的技术特征可以明示或者隐含的包括至少一个该特征。
31.本技术提出了一种视频内容推送方法,可以提高视频内容推送的准确性,能够应用于云技术、人工智能、区块链、车联网、智慧交通、智能家居等各种领域或场景。在一实施例中,该视频内容推送方法可以基于人工智能技术中的机器学习技术实现。机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
32.在可行的实施例中,该视频内容推送方法还可以基于云技术(cloud technology)和/或区块链技术实现。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。区块链(blockchain或block chain)是借由密码学串接并保护内容的串连文字记录(又称区块)。每一个区块包含了前一个区块的加密散列、相应时间戳记以及交易数据(通常用默克尔树(merkle tree)算法计算的散列值表示),这样的设计使得区块内容具有难以篡改的特性。用区块链技术所串接的分布式账本能让两方有效纪录交易,且可永久查验此交易。
33.本技术实施例提供的视频内容推送方法具体可以涉及云技术中的云存储(cloud storage)、云数据库(cloud database)、大数据(big data)中的一种或者多种。例如,从云数据库中获取执行该视频内容推送方法所需要的数据(例如候选视频、视频文本信息,等等)。又例如,执行该视频内容推送方法所需要的数据可以是以区块的形式存储在区块链上;另外,执行该视频内容推送方法的计算机设备可以是区块链网络中的节点设备。
34.请参见图1,图1为本技术实施例提供的一种视频内容推送系统的系统架构示意图;图1所示的系统架构能够用来实现本技术实施例提出的视频内容推送方法。如图1所示,该网络架构包括:计算机设备10及多个终端11(图中以3个为示例)。
35.计算机设备10可以是具备数据处理功能的服务器或者终端,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端,等等,但并不局限于此。图1所示的终端11与计算机设备10之间通过网络连接。
36.图1所示的系统架构可以实现本技术实施例提供的视频内容推送方法,以计算机设备10执行本方法为例,其实现流程大致包括:
①
获取针对目标对象的视频内容推送请求,视频内容推送请求包括与热点事件相关的描述文本;
②
根据描述文本与m个待匹配视频的视频文本信息之间的相似度,从m个待匹配视频中召回n个候选视频,m和n为正整数;
③
根据
n个候选视频的发布时间,对n个候选视频的视频文本信息和描述文本之间的相似度进行时间浓度分析,确定目标时间段;
④
提取目标时间段内的候选视频的视频文本信息的候选关键词集合;
⑤
根据候选关键词集合对每个候选视频的视频文本信息进行阈值识别处理,确定每个候选视频的相似度阈值;
⑥
分别对每个候选视频的视频文本信息和描述文本之间的相似度,以及每个候选视频的相似度阈值进行阈值比较处理,确定与描述文本匹配的候选视频,向目标对象推送与描述文本匹配的候选视频。采用本技术的方法,可以为每个候选视频设置个性化的相似度阈值,以精准匹配出与描述文本相匹配的候选视频,提高视频内容推送的准确性。
37.可以理解的是,本技术实施例描述的系统架构示意图是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
38.下面对视频内容推送方法的具体实现方式进行详细阐述。
39.请参阅图2,图2为本技术实施例提供的一种视频内容推送方法的流程示意图一。本技术实施例中所描述的视频内容推送方法可以由图1中的计算机设备10执行,所述视频内容推送方法包括但不限于如下步骤:
40.s201、获取针对目标对象的视频内容推送请求,所述视频内容推送请求包括与热点事件相关的描述文本。
41.视频内容推送请求用于请求推送视频。目标对象是视频的推送对象。热点是指比较受广大群众关注或者欢迎的新闻或者信息,或指某时期引人注目的人物、地方或问题,通常现实中发生突发事件、出现热点人物及热点话题之后,首先会在媒体、网络上出现一些报道,接着人们会通过不同形式的搜索串进行搜索,根据事件的发展及点击搜索,该事件的报道会持续一段时间,在这段时间内该事件可以认为是热点事件。
42.在一实施例中,该视频内容推送请求可以是终端或应用程序发送的,该视频内容推送请求包括的描述文本可以是在终端或应用程序中输入的文本,也可以对输入的文本进行关键词提取或同义转换处理得到的文本,当输入的文本是口语化的文本时,该描述文本还可以是对输入的文本进行书面化处理得到的文本。
43.在可行的实施例中,该视频内容推送请求可以是视频内容推荐后台发起的,该描述文本可以是视频内容推荐后台抓取到的热点事件词条,例如运营人员可以在视频内容推荐后台中设置每隔预设周期就发起视频内容推送请求,当预设时间到达时,视频内容推荐后台利用抓取到的热点事件词条生成视频内容推送请求,由计算机设备响应视频内容推送请求确定推送的视频,并向目标对象推送视频,该目标对象可以是应用程序。
44.s202、根据所述描述文本与m个待匹配视频的视频文本信息之间的相似度,从所述m个待匹配视频中召回n个候选视频,所述m和所述n为正整数。
45.视频文本信息可以是视频标题、视频的描述信息、视频语音对应的文本信息、视频图像中的字幕等。待匹配视频为任一视频,可以根据描述文本与m个待匹配视频的视频文本信息之间的相似度,从m个待匹配视频中选择n个候选视频,n小于或等于m。
46.在一实施例中,计算机设备可以获取描述文本的第一特征,以及m个待匹配视频的视频文本信息的第二特征,第一特征和第二特征为文本特征,文本特征可以通过文本特征
提取算法得到,例如词向量(word2vec)模型、文本特征提取函数(countvectorize)、基于变换器的双向编码表示(bidirectional encoder representations from transformers,bert)模型等。接着,确定第一特征和m个第二特征之间的相似度,该相似度可以是余弦相似度、切比雪夫距离、杰卡德相似系数等,将第一特征和m个第二特征之间的相似度,作为描述文本与m个待匹配视频的视频文本信息之间的相似度,根据相似度的大小以及设置的召回数量和第一阈值,从m个待匹配视频中确定n个候选视频。例如,从m个待匹配视频中选择相似度排在前面且大于第一阈值的n个待匹配视频作为n个候选视频。
47.可理解的,n个候选视频的视频文本信息与描述文本之间的相似度大于第一阈值,因此n个候选视频是针对描述文本初步召回的视频,进一步对n个候选视频进行提纯。
48.s203、根据所述n个候选视频的发布时间,对所述n个候选视频的视频文本信息与所述描述文本之间的相似度进行时间浓度分析,确定目标时间段。
49.在一实施例中,计算机设备可以利用n个候选视频的发布时间,确定发布时间的时间跨度,依据时间跨度以及均匀划分的方式得到多个时间段,例如,发布时间的时间跨度为1.1日-1.28日,每个时间段的时间间隔为1天,则可以得到28个时间段,或者也可以依据时间跨度以及非均匀划分的方式得到多个时间段,本技术对此不加以限制。可以统计每个时间段内候选视频的视频文本信息和描述文本之间的相似度的均值、最大值、最小值,以及每个时间段内候选视频的视频文本信息和描述文本之间的相似度之和中的任一个,并将每个时间段内候选视频的视频文本信息和描述文本之间的相似度的均值、最大值、最小值,以及每个时间段内候选视频的视频文本信息和描述文本之间的相似度之和中的任一个作为每个时间段对应的目标相似度,再将最大目标相似度对应的时间段,或者目标相似度大于预设阈值的时间段,作为目标时间段。
50.在一具体的实现方式中,可以利用n个候选视频的发布时间,按照均匀划分的方式得到多个时间段,并统计每个时间段内候选视频的视频文本信息和描述文本之间的相似度之和。由于时间段是均匀划分的,因此当相似度之和越大时,说明该时间段内的候选视频的数量越多,和/或,该时间段内的候选视频的视频文本信息与描述文本之间的相似度较高;当相似度之和越小时,说明该时间段内的候选视频的数量越少,和/或,该时间段内的候选视频的视频文本信息与描述文本之间的相似度较低。又因为热点事件是突发性的事件,会在一段时间内呈现发文量激增的趋势,所以相似度之和越大的时间段越有可能是描述文本对应的热点事件相关的时间段,可以将相似度之和大于预设阈值(可以人为设定)的时间段作为目标时间段。
51.s204、根据所述目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定所述每个候选视频的相似度阈值。
52.在一实施例中,计算机设备可以从目标时间段内的候选视频的视频文本信息中提取关键词,作为候选关键词集合中的关键词,该候选关键词集合中的关键词可以代表描述文本对应的热点事件。从目标时间段内的候选视频的视频文本信息中提取的关键词可以是目标时间段内的候选视频的视频文本信息包括的实体,实体包括人名、地名、机构名、专有名词等,以及时间、数量、比例数值中的一种或多种;或者可以对目标时间段内的候选视频的视频文本信息进行分词处理,得到多个词组,然后计算每个词组的词频-逆文件频率(term frequency-inverse document frequency,tf-idf)值,tf-idf值可以评估词组对于
视频文本信息的重要程度。具体地,视频文本信息a中包括词组a,则词组a的tf(term frequency,词频)可以为词组a在视频文本信息a中的出现频次/视频文本信息a的总的词组数,词组a的idf(inverse document frequency,逆文档频率)可以为log[文本信息库中的文本信息的数量/(包含词组a的文本信息的数量+1)],该文本信息库可以包括m个待匹配视频的视频文本信息,或者其他获取到的视频文本信息,则词组a的tf-idf值为词组a的tf
×
词组a的idf。当得到多个词组的tf-idf值之后,可以将多个词组中tf-idf值排在前面的指定数量个词组作为候选视频集合的候选关键词集合中的关键词。
[0053]
目标候选视频是n个候选视频中的任一视频,进一步地,利用候选关键词集合对目标候选视频的视频文本信息进行阈值识别处理,具体地:可以确定目标候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度,该匹配程度可以基于目标候选视频的视频文本信息命中的候选关键词集合中的关键词的数量确定,若目标候选视频的视频文本信息命中的候选关键词集合中的关键词的数量越多,则目标候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度就越高。若目标候选视频的视频文本信息命中的候选关键词集合中的关键词的数量越少,则目标候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度就越低。当匹配程度越高时,表明目标候选视频与描述文本对应的热点事件的相关度越高,目标候选视频的相似度阈值相对会越低;当匹配程度越低时,表明目标候选视频与描述文本对应的热点事件的相关度越低,目标候选视频的相似度阈值相对会越高。
[0054]
s205、分别对所述每个候选视频的视频文本信息与所述描述文本之间的相似度,以及所述每个候选视频的相似度阈值进行阈值比较处理,确定与所述描述文本匹配的候选视频,向所述目标对象推送与所述描述文本匹配的候选视频。
[0055]
在一实施例中,若目标候选视频的视频文本信息与描述文本之间的相似度大于或等于目标候选视频的相似度阈值,则确定目标候选视频为与描述文本匹配的候选视频,可以向目标对象推送该目标候选视频;若目标候选视频的视频文本信息与描述文本之间的相似度小于目标候选视频的相似度阈值,则确定目标候选视频不为与描述文本匹配的候选视频,不向目标对象推送该目标候选视频。可见,当目标候选视频的相似度阈值越低时,目标候选视频会越有可能与描述文本匹配,即目标候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度越高时,目标候选视频会越有可能与描述文本匹配。
[0056]
需说明的是,该候选关键词集合中的关键词可以代表描述文本对应的热点事件,则当候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度越高时,表明该候选视频是与描述文本对应的热点事件相关度高的视频,可以使候选视频的相似度阈值较低,让候选视频越有可能与描述文本匹配,当候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度越低时,表明该候选视频是与描述文本对应的热点事件相关度低的视频,使候选视频的相似度阈值较高,让候选视频越不可能与描述文本匹配,从而更准确召回与描述文本对应的热点事件相关的视频,提高针对热点事件的视频内容推送的准确性。
[0057]
采用本技术的方法,可以获取针对目标对象的视频内容推送请求,该视频内容推送请求包括与热点事件相关的描述文本,再利用候选视频的视频文本信息和描述文本之间的相似度进行时间浓度分析,挖掘出目标时间段内的候选视频的视频文本信息,利用目标时间段内的候选视频的视频文本信息进行阈值识别处理,为每个候选视频设置个性化的相
似度阈值,以精准匹配出与描述文本相匹配的候选视频,提高视频内容推送的准确性。
[0058]
请参阅图3,图3为本技术实施例提供的一种视频内容推送方法的流程示意图二。本技术实施例中所描述的视频内容推送方法可以由图1中的计算机设备10执行,所述视频内容推送方法包括但不限于如下步骤:
[0059]
s301、获取针对目标对象的视频内容推送请求,所述视频内容推送请求包括与热点事件相关的描述文本。
[0060]
其中,s301的详细实现过程可以参见s201,本实施例不再赘述。
[0061]
s302、根据所述描述文本与m个待匹配视频的视频文本信息之间的相似度,从所述m个待匹配视频中召回n个候选视频,所述m和所述n为正整数。
[0062]
在一实施例中,可以利用文本训练集对bert模型进行训练得到相似预测模型,其中,文本训练集包括多个发表文本和每个发表文本对应的主题标签,发表文本和发表文本对应的主题标签是通过对目标格式的文本进行识别后构建的,该目标格式的文本通常是指包含“#主题标签”的文本,因为在互联网上通常用“#主题标签”标识一句话的关键词或话题,具有高阶语义归纳文本的性质,因此可以将“#主题标签”中的“主题标签”作为发表文本对应的主题标签,从而可以减少文本训练集标注的成本。另外,在利用文本训练集对bert模型进行训练时,将文本训练集包括的每个发表文本作为bert模型的输入,得到bert模型的输出,将bert模型的输出和每个发表文本对应的主题标签代入损失函数(例如交叉熵损失函数)得到损失值,在损失值达到训练停止条件时,将停止训练时的bert模型作为相似预测模型。该训练停止条件可以是损失值小于损失阈值(可以人为设定),或训练次数达到指定的训练次数(可以人为设定)。最终训练得到的相似预测模型可以使相同事件的文本描述距离更近,使不同事件的文本描述距离更远。
[0063]
在可行的实施例中,计算机设备可以通过调用相似预测模型确定描述文本的第一特征和m个待匹配视频的视频文本信息的第二特征,即将描述文本输入相似预测模型得到描述文本的第一特征,将m个待匹配视频的视频文本信息分别输入相似预测模型,得到m个第二特征,再计算第一特征和m个第二特征之间的相似度,该相似度具体可以是余弦相似度、切比雪夫距离、杰卡德相似系数等,将第一特征和m个第二特征之间的相似度作为描述文本与m个待匹配视频的视频文本信息之间的相似度,最终可以从m个待匹配视频中选择相似度排在前面且大于第一阈值的n个待匹配视频作为n个候选视频。
[0064]
s303、按照所述n个候选视频的发布时间划分多个时间段,对每个时间段内候选视频的视频文本信息与所述描述文本之间的相似度进行统计,确定所述每个时间段对应的目标相似度。
[0065]
在一实施例中,计算机设备可以利用n个候选视频的发布时间,确定发布时间的时间跨度,依据时间跨度以及均匀划分的方式得到多个时间段,例如,发布时间的时间跨度为1.1日-1.28日,每个时间段的时间间隔为1天,则可以得到28个时间段,或者也可以依据时间跨度以及非均匀划分的方式得到多个时间段。进一步地,对每个时间段内候选视频的视频文本信息与描述文本之间的相似度进行统计,可以统计每个时间段内候选视频的视频文本信息与描述文本之间的相似度的均值、最大值、最小值,以及每个时间段内候选视频的视频文本信息和描述文本之间的相似度之和中的任一个,并将每个时间段内候选视频的视频文本信息与描述文本之间的相似度的均值、最大值、最小值,以及每个时间段内候选视频的
视频文本信息与描述文本之间的相似度之和中的任一个作为每个时间段对应的目标相似度,再将最大目标相似度对应的时间段或大于预设阈值的目标相似度对应的时间段作为目标时间段。
[0066]
当将每个时间段内的候选视频与描述文本之间的相似度之和作为每个时间段对应的目标相似度时,每个时间段内的目标相似度的大小可以表明两个方面:一是每个时间段内的候选视频的数量多不多,二是每个时间段内的候选视频与描述文本之间的相似度高不高。
[0067]
s304、利用所述每个时间段对应的目标相似度绘制时间浓度曲线,根据所述时间浓度曲线确定目标时间段。
[0068]
在一实施例中,可以先利用每个时间段对应的目标相似度绘制时间浓度曲线,即该时间浓度曲线的横坐标为多个时间段,纵坐标为每个时间段内对应的目标相似度。例如,图4为一个示例的时间浓度曲线。再从时间浓度曲线中获取达到预设阈值(可以人为设定)的目标波峰,可理解的,目标波峰可以为一个或多个,这样可以过滤掉时间浓度曲线中较小的波峰。再将时间浓度曲线中从目标波峰之前的第一波谷到目标波峰之后的第二波谷之间的时间段确定为目标时间段,目标波峰之前的第一波谷是指在目标波峰之前,且距离目标波峰最近的第一个波谷,目标波峰之后的第二波谷是指在目标波峰之后,且距离目标波峰最近的第一个波谷。例如,图4中41所指示的波峰为大于预设阈值的目标波峰,则图4中42指示的是第一波谷,图4中43指示的是第二波谷,从42到43之间的时间段为目标时间段。
[0069]
在可行的实施例中,在得到时间浓度曲线之后,可以获取时间浓度曲线包括的多个波峰,并获取多个波峰对应的目标相似度的大小,从该多个波峰中选择对应的目标相似度的大小排在前面的指定数量个波峰作为目标波峰,再将目标波峰之前的第一波谷到目标波峰之后的第二波谷之间的时间段确定为目标时间段。
[0070]
s305、提取所述目标时间段内的候选视频的视频文本信息的候选关键词集合。
[0071]
在一实施例中,可以获取目标时间段内的候选视频的视频文本信息中的实体,实体包括人名、地名、机构名、专有名词等,以及时间、数量、比例数值中的一种或多种,将目标时间段内的候选视频的视频文本信息中的实体确定为候选关键词集合包括的关键词。以及可以对目标时间段内的候选视频的视频文本信息进行分词处理,得到目标时间段内的候选视频的视频文本信息中的多个词组,根据词频-逆文件频率算法计算每个词组的词频-逆文件频率(term frequency-inverse document frequency,tf-idf)值,根据tf-idf值从多个词组中提取候选关键词集合包括的关键词,具体可以是将tf-idf值排在前面的指定数量个词组作为候选关键词集合包括的关键词,或者,将tf-idf值大于预设tf-idf值的词组作为候选关键词集合包括的关键词。
[0072]
在一实施例中,根据词频-逆文件频率算法计算每个词组的词频-逆文件频率(term frequency-inverse document frequency,tf-idf)值,包括:若目标时间段内的候选视频的视频文本信息包括词组a,则词组a的tf(term frequency,词频)可以为词组a在目标时间段内的候选视频的视频文本信息中的出现频次/目标时间段内的候选视频的视频文本信息的总的词组数,词组a的idf(inverse document frequency,逆文档频率)可以为log[文本信息库中的文本信息的数量/(包含词组a的文本信息的数量+1)],该文本信息库可以包括m个待匹配视频的视频文本信息,或者其他获取到的视频文本信息,则词组a的tf-idf
值为词组a的tf
×
词组a的idf。通过该方法可以得到在目标时间段内比较重要的词组,该目标时间段又与目标文本对应的热点事件相关,因此该关键词可以代表目标文本对应的热点事件。
[0073]
目标时间段会包括一个或多个时间段,例如图4中42到43指示的目标时间段包括6-25、6-26、6-27、6-28、6-29五个时间段,每个时间段的时间间隔为一天。在另一实施例中,根据词频-逆文件频率算法计算每个词组的词频-逆文件频率(term frequency-inverse document frequency,tf-idf)值,包括:若目标时间段包括的任一时间段内的候选视频的视频文本信息包括词组a,则词组a的tf可以为词组a在该任一时间段内的候选视频的视频文本信息中的出现频次/该任一时间段内的候选视频的视频文本信息的总的词组数,词组a的idf可以为log[文本信息库中的文本信息的数量/(包含词组a的文本信息的数量+1)],则词组a的tf-idf值为词组a的tf
×
词组a的idf。例如下表1为针对图4中从42到43之间的目标时间段包括的6-25、6-26、6-27、6-28、6-29五个时间段确定的关键词,即针对该五个时间段分别计算包括的词组的tf-idf值,然后可以将tf-idf值排在前面,和/或,大于预设tf-idf值的词组作为每个时间段的关键词。通过该方法可以得到在目标时间段内比较重要的词组,该目标时间段又与目标文本对应的热点事件相关,因此该关键词可以代表目标文本对应的热点事件。
[0074]
表1
[0075][0076][0077]
可理解的,由于热点事件在时间维度上通常呈现的趋势是发文量会先激增,再下降,因此热点事件在时间浓度曲线上呈现的趋势也是先上升在下降,基于目标波峰确定的目标时间段包括的候选视频的视频文本信息确定出的候选关键词集合能够代表描述文本对应的热点事件。
[0078]
s306、根据所述候选关键词集合对每个候选视频的视频文本信息进行阈值识别处
理,确定所述每个候选视频的相似度阈值。
[0079]
目标候选视频是n个候选视频的任一候选视频,在一实施例中,若目标候选视频的视频文本信息未命中候选关键词集合的任一关键词,则可以将目标候选视频的相似度阈值设为高阈值参数,例如该高阈值参数可以为无穷大。若目标候选视频的视频文本信息命中候选关键词集合中的至少一个关键词,则根据候选关键词集合对每个候选视频的视频文本信息进行阈值识别处理,确定每个候选视频的相似度阈值。
[0080]
在另一实施例中,确定置信关键词集合,包括:根据m个待匹配视频的视频文本信息与描述文本之间的相似度,从m个待匹配视频中确定多个参考视频,多个参考视频的视频文本信息与描述文本之间的相似度大于第二阈值,根据多个参考视频的发布时间,对多个参考视频的视频文本信息与描述文本之间的相似度进行时间浓度分析,确定参考时间段,与前述根据n个候选视频的发布时间,对n个候选视频的视频文本信息与描述文本之间的相似度进行时间浓度分析,确定目标时间段的处理逻辑一致,本实施例不再赘述。将参考时间段内的参考视频的视频文本信息包括的实体确定为置信关键词集合中的关键词,或者,获取参考时间段内的参考视频的视频文本信息中的多个词组,根据词频-逆文件频率算法计算每个词组的词频-逆文件频率值,根据词频-逆文件频率值,从多个词组中提取置信关键词集合包括的关键词。
[0081]
需说明的是,n个候选视频的视频文本信息与描述文本之间的相似度大于第一阈值,而第二阈值大于第一阈值,因此,参考视频的视频文本信息相比于候选视频的视频文本信息而言,与描述文本之间的距离更近,参考视频的置信度更高(即更与描述文本匹配),则置信关键词集合中的关键词相比于候选关键词集合中的关键词的置信度也更高。
[0082]
进一步地,利用置信关键词集合、候选关键词集合中的关键词在视频文本信息集合中的出现频次,以及指定关键词类型中的一种或多种进行关键词筛选处理,得到必要关键词集合。候选关键词集合中的关键词在视频文本信息集合中的出现频次越高,说明越能代表描述文本对应的热点事件,则出现频次越高越有可能成为必要关键词中的关键词。该指定关键词类型可以是时间、地点、事件主体对象、数据、事件内容中的一种或多种,可以人为指定,或者根据关键词的类型在视频文本信息集合中的占比确定,例如占比越高,则越有可能成为指定关键词类型,或占比大于预设占比的类型为指定关键词类型。一实现方式中,可以将置信关键词集合作为必要关键词集合,或者将在视频文本信息集合中的出现频次较高的候选关键词集合中的关键词作为必要关键词集合中的关键词,或者将必要关键词集合或候选关键词集合中指定关键词类型(例如时间)的关键词作为必要关键词集合中的关键词,或者将置信关键词集合中在视频文本信息集合中的出现频率较高,且是指定关键词类型的关键词作为必要关键词集合中的关键词。若目标候选视频的视频文本信息未命中必要关键词集合的任一关键词,则将目标候选视频的相似度阈值设为高阈值参数,例如该高阈值参数可以为无穷大。若目标候选视频的视频文本信息命中必要关键词集合中的至少一个关键词,则根据候选关键词集合对每个候选视频的视频文本信息进行阈值识别处理,确定每个候选视频的相似度阈值。
[0083]
总的来说,此处计算必要关键词集合是为了过滤掉(或者说是删除掉)一部分候选视频,过滤掉的这一部分候选视频就不用计算与之对应的相似度阈值,可以在提高视频内容推送的准确性的同时,提高视频内容推送的效率。
[0084]
从前述可知,可以通过候选视频的视频文本信息是否命中候选关键词集合或必要关键词集合中的关键词,来过滤掉一部分候选视频。由于置信关键词集合是候选关键词集合的子集,因此必要关键词集合也是候选关键词集合的子集,若确定目标候选视频的视频文本信息命中必要关键词集合的关键词时,则无需再去检测目标候选视频的视频文本信息是否命中候选关键词集合的关键词。而在可行的实施例中,若目标候选视频的视频文本信息未命中候选关键词集合的任一关键词,则可以将目标候选视频的相似度阈值设为高阈值参数,例如该高阈值参数可以为无穷大。若目标候选视频的视频文本信息命中候选关键词集合中的至少一个关键词,则可以进一步确定目标候选视频的视频文本信息是否命中必要关键词集合的任一关键词,若目标候选视频的视频文本信息未命中必要关键词集合的任一关键词,则将目标候选视频的相似度阈值设为高阈值参数。若目标候选视频的视频文本信息命中必要关键词集合中的至少一个关键词,则根据候选关键词集合对每个候选视频的视频文本信息进行阈值识别处理,确定每个候选视频的相似度阈值。
[0085]
在一实施例中,根据候选关键词集合对每个候选视频的视频文本信息进行阈值识别处理,确定每个候选视频的相似度阈值,包括:可以从候选关键词集合中提取目标候选视频的视频文本信息命中的p个关键词,将提取的p个关键词作为p个视频关键词,p为正整数,然后确定每个视频关键词的类型在视频文本信息集合中的占比,类型可以包括:时间、地点、事件主体对象、数据、事件内容,视频文本信息集合包括n个候选视频的视频文本信息。候选关键词集合中每种类型的关键词的占比=每种类型的关键词在视频文本信息集合中的出现频次/所有类型的关键词在视频文本信息集合中的出现频次,则当确定每个视频关键词的类型时,就可以得到每个视频关键词的类型在视频文本信息集合中的占比。进一步地,获取每个视频关键词在目标候选视频的视频文本信息中的出现频次,可以将每个视频关键词的类型在视频文本信息集合中的占比与每个视频关键词在目标候选视频的视频文本信息中的出现频次的乘积,作为每个视频关键词的权重,例如,针对描述文本“外卖小哥返校8个月后高考623分,以后想当老师”存在视频关键词“外卖小哥”,且出现频次为1次,假设事件主体对象(包括“外卖小哥”)对应的占比为1/7,则视频关键词外卖小哥”的权重为1
×
1/7。
[0086]
在可行的实施例中,可以根据每种类型的关键词在视频文本信息集合中的占比,确定每种类型的关键词的权重,例如占比越大,对应的类型的权重就越大。当得到每个视频关键词的类型的占比时,可以进一步确定每个视频关键词的类型的权重,然后将每个视频关键词的类型的权重与每个视频关键词在目标候选视频的视频文本信息中的出现频次的乘积,作为每个视频关键词的权重。例如,针对描述文本“外卖小哥返校8个月后高考623分,以后想当老师”存在视频关键词“外卖小哥”,且出现频次为1次,假设事件主体对象(包括“外卖小哥”)对应的占比为1/7,并设置对应的权重为0.2,则视频关键词“外卖小哥”的权重为1
×
0.2。
[0087]
可理解的,当每个视频关键词的类型在视频文本信息集合中的占比越大,和/或,每个视频关键词在目标候选视频的视频文本信息中的出现频次越高,每个视频关键词的权重就越大,因此每个视频关键词的权重,与每个视频关键词的类型在视频文本信息集合中的占比成正相关,以及与每个视频关键词在目标候选视频的视频文本信息中的出现频次越高成正相关。一实现方式中,还可以是将每个视频关键词的类型的权重,与每个视频关键词
在目标候选视频的视频文本信息中的出现频次之和,作为每个视频关键词的权重。
[0088]
进一步地,根据阈值识别规则对p个视频关键词的权重进行处理,得到目标候选视频的相似度阈值,包括:按照阈值识别规则,计算p个视频关键词的权重之和,将p个视频关键词的权重之和作为第一调节参数。例如,针对描述文本“外卖小哥返校8个月后高考623分,以后想当老师”存在视频关键词“外卖小哥”、“高考”、“623”分,且视频关键词的出现频次均为1次,假设事件主体对象(包括“外卖小哥”)对应的占比为1/7,事件内容(包括“高考”)对应的占比为3/7,数据(包括“623”)对应的占比为2/7,则p个视频关键词的权重之和可以为1
×
1/7+1
×
3/7+1
×
2/7。进一步地,按照阈值识别规则,计算p个视频关键词在视频文本信息集合中的出现频次之和,将p个视频关键词在视频文本信息集合中的出现频次之和作为第二调节参数,最后按照阈值识别规则,对第一调节参数和第二调节参数进行处理,得到目标候选视频的相似度阈值,即将第一调节参数和第二调节参数输入阈值识别规则,得到目标候选视频的相似度阈值。
[0089]
在一可行的实施例中,阈值识别规则如下述式(1)所示:
[0090]
t=t(high)
–
(t(high)
–
t(low))
×w×n×aꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0091]
其中,t表示目标候选视频的相似度阈值,t(low)表示最低相似度阈值,t(high)表示最高相似度阈值,w表示第一调节参数,n表示第二调节参数,a表示权重调节参数。t(low)、t(high)和a为可调节的参数。
[0092]
可理解的,第一调节参数和第二调节参数与相似度阈值之间成反比,即p个视频关键词的权重之和越大,和/或,p个视频关键词在视频文本信息集合中的出现频次之和越高,则说明目标候选视频的视频文本信息中的视频关键词越是能表现描述文本对应的热点事件的关键词,此时目标候选视频的相似度阈值就会越低,目标候选视频越可能与描述文本匹配。
[0093]
s307、分别对所述每个候选视频的视频文本信息与所述描述文本之间的相似度,以及所述每个候选视频的相似度阈值进行阈值比较处理,确定与所述描述文本匹配的候选视频,向所述目标对象推送与所述描述文本匹配的候选视频。
[0094]
目标候选视频是n个候选视频中的任一视频,在一实施例中,若目标候选视频的视频文本信息和描述文本之间的相似度大于或等于目标候选视频的相似度阈值,则确定目标候选视频为与描述文本匹配的候选视频,可以向目标对象推送该目标候选视频;若目标候选视频的视频文本信息和描述文本之间的相似度小于目标候选视频的相似度阈值,则确定目标候选视频不为与描述文本匹配的候选视频,不向目标对象推送该目标候选视频。可见,当目标候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度越高时,由于目标候选视频的相似度阈值越低,因此目标候选视频会越有可能与描述文本匹配,当目标候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度越低时,由于目标候选视频的相似度阈值越高,因此目标候选视频会越没有可能与描述文本匹配。另外,当目标候选视频的相似度阈值为高阈值参数时,由于目标候选视频的视频文本信息和描述文本之间的相似度小于高阈值参数,可以确定目标候选视频与描述文本不匹配。
[0095]
在一实施例中,与描述文本匹配的候选视频的数量是多个,可以根据与描述文本匹配的多个候选视频的发布时间,以及与描述文本匹配的多个候选视频的视频文本信息与描述文本之间的相似度,对与描述文本匹配的多个候选视频进行排序,得到与描述文本匹
配的多个候选视频的推荐顺序,例如,属于同一日期的候选视频按照相似度大小排序,不同日期的按照日期先后排序,从而得到与描述文本匹配的多个候选视频的推荐顺序,再根据推荐顺序,以及与描述文本匹配的多个候选视频生成推荐列表,该推荐列表包含与描述文本匹配的多个候选视频,且是按该推荐顺序排列的,可以向目标对象推送该推荐列表。
[0096]
在本技术实施例中,可以利用划分的时间段内的候选视频的视频文本信息和描述文本之间的相似度,获取时间浓度曲线中达到预设阈值的目标波峰,根据目标波峰得到目标时间段包括的候选视频,从而根据目标时间段包括的候选视频挖掘出能够代表描述文本对应的热点事件的候选关键词集合,通过候选视频的视频文本信息与候选关键词集合中的关键词为每个候选视频设置个性化的相似度阈值,从而提高视频内容推送的准确性。
[0097]
请参阅图5,图5为本技术实施例提供的一种视频内容推送方法的流程示意图三。本技术实施例中所描述的视频内容推送方法可以由图1中的计算机设备10执行,所述视频内容推送方法包括:
[0098]
在一实施例中,计算机设备可以接入热点事件收集平台,该热点事件收集平台可以输出热点事件词条,计算机设备可以将热点事件词条作为与热点事件相关的描述文本,例如热点事件词条可以为“外卖小哥返校8个月后高考623分,以后想当老师”。
[0099]
在一实施例中,计算机设备可以利用文本训练集对初始的bert模型进行训练,得到训练好的bert模型,该文本训练集包括多个发表文本和每个发表文本对应的主题标签,发表文本和发表文本对应的主题标签是通过对目标格式的文本进行识别后构建的,该目标格式的文本通常是指包含“#主题标签”的文本。
[0100]
进一步地,利用训练好的bert模型对描述文本进行特征提取得到描述文本的第一特征,以及获取m个待匹配文本的视频文本信息,利用训练好的bert模型对m个待匹配文本的视频文本信息进行特征提取得到m个第二特征。利用稠密向量检索引擎(例如faiss)存储m个第二特征,该稠密向量检索引擎可以构建m个第二特征的索引,并支持多种向量检索方式,例如内积、欧氏距离等。该稠密向量检索引擎可以利用第一特征以及支持的向量检索方式,并按照预先设置的最大召回数量和第一阈值,从m个第二特征中选择n个第二特征,将n个第二特征对应的待匹配视频作为召回的n个候选视频。接着计算机设备可以对n个候选视频的视频文本信息与描述文本之间的相似度进行时间浓度分析,确定目标时间段,即按照n个候选视频的发布时间划分多个时间段,对每个时间段内的候选视频的视频文本信息与描述文本之间的相似度进行统计,确定每个时间段对应的目标相似度,利用每个时间段对应的目标相似度绘制时间浓度曲线,并从时间浓度曲线中获取达到预设阈值的目标波峰,将时间浓度曲线中从目标波峰之前的第一波谷到目标波峰之后的第二波谷之间的时间段确定为目标时间段。获取目标时间段内的候选视频的视频文本信息。再针对目标时间段内的候选视频的视频文本信息进行分词处理和实体提取,将提取到的实体作为候选关键词集合,以及计算分词处理得到的多个词组的tf-idf值,将tf-idf值排在前面的指定数量个词组作为候选关键词集合中的关键词。
[0101]
在可行的实施例中,还可以利用高阈值召回参考视频,即该稠密向量检索引擎可以利用第一特征以及支持的向量检索方式,并按照预先设置的最大召回数量和第二阈值(第二阈值大于第一阈值),从m个第二特征中选择多个第二特征,将多个第二特征对应的待匹配视频作为召回的多个参考视频。接着可以根据多个参考视频的视频文本信息与描述文
本之间的相似度进行时间浓度分析,确定参考时间段,与上述对n个候选视频的视频文本信息与描述文本之间的相似度进行时间浓度分析,确定目标时间段的处理逻辑相同。获取参考时间段内的候选视频的视频文本信息,再利用参考时间段内的候选视频的视频文本信息确定置信关键词集合。例如针对参考时间段内的参考视频的视频文本信息进行分词处理和实体提取,将提取到的实体作为置信关键词集合,以及计算分词处理得到的多个词组的tf-idf值,将tf-idf值排在前面的指定数量个词组作为置信关键词集合中的关键词。
[0102]
目标候选视频为n个候选视频中的任一候选视频,在一实施例中,可以检测目标候选视频的视频文本信息是否命中置信关键词集合中的关键词,若目标候选视频的视频文本信息未命中置信关键词集合中的任一关键词,则删除该目标候选视频,若目标候选视频的视频文本信息命中置信关键词集合中的至少一个关键词,则获取目标候选视频的相似度阈值,根据目标候选视频的视频文本信息与描述文本之间的相似度,以及目标候选视频的相似度阈值,确定目标候选视频是否与描述文本匹配。当得到与描述文本匹配的多个候选视频时,可以根据与描述文本匹配的多个候选视频的发布时间,以及与描述文本匹配的多个候选视频的视频文本信息与描述文本之间的相似度,对与描述文本匹配的多个候选视频进行排序,得到与描述文本匹配的多个候选视频的推荐顺序,再根据推荐顺序,可以生成包含与描述文本匹配的多个候选视频的推荐列表,并向目标对象输出推荐列表,该目标对象可以是视频客户端。例如,推荐列表中与描述文本匹配的多个候选视频的视频标题为:“外卖小哥高考623分,目前仍淡定送外卖,小哥:赚够一年学费”,“励志外卖小哥二次高考623分”。
[0103]
在本技术实施例中,可以利用稠密向量检索引擎召回候选视频和参考视频,并基于候选视频确定候选关键词集合,基于参考视频确定置信关键词集合,利用关键词匹配技术,可以将未命中置信关键词集合的候选视频删除,以及确定候选视频的视频文本信息与候选关键词集合中的关键词的匹配程度,通过该匹配程度可以召回与描述文本对应的热点事件相关度高的候选视频,从而提高视频内容推送的准确性,而且关键词提取和匹配过程的计算量可控,因此耗时较短,可以提高视频内容推送的效率。
[0104]
可以理解的是,在本技术的具体实施方式中,涉及到视频文本信息等相关数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0105]
上述详细阐述了本技术实施例的方法,为了便于更好地实施本技术实施例的上述方法,相应地,下面提供了本技术实施例的装置。请参见图6,图6是本技术实施例提供的一种视频内容推送装置的结构示意图,在一实施例中,该视频内容推送装置60可以包括:
[0106]
获取单元601,用于获取针对目标对象的视频内容推送请求,所述视频内容推送请求包括与热点事件相关的描述文本;
[0107]
处理单元602,用于根据所述描述文本与m个待匹配视频的视频文本信息之间的相似度,从所述m个待匹配视频中召回n个候选视频,所述m和所述n为正整数;
[0108]
所述处理单元602,还用于根据所述n个候选视频的发布时间,对所述n个候选视频的视频文本信息与所述描述文本之间的相似度进行时间浓度分析,确定目标时间段;
[0109]
所述处理单元602,还用于根据所述目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定所述每个候选视频的相似度阈值;
[0110]
所述处理单元602,还用于分别对所述每个候选视频的视频文本信息与所述描述文本之间的相似度,以及所述每个候选视频的相似度阈值进行阈值比较处理,确定与所述描述文本匹配的候选视频,向所述目标对象推送与所述描述文本匹配的候选视频。
[0111]
在一实施例中,所述处理单元602具体用于:对每个时间段内候选视频的视频文本信息与所述描述文本之间的相似度进行统计,确定所述每个时间段对应的目标相似度;利用所述每个时间段对应的目标相似度绘制时间浓度曲线,并从所述时间浓度曲线中获取达到预设阈值的目标波峰;将所述时间浓度曲线中从所述目标波峰之前的第一波谷到所述目标波峰之后的第二波谷之间的时间段确定为目标时间段。
[0112]
在一实施例中,目标候选视频是所述n个候选视频的任一候选视频,所述处理单元602具体用于:提取所述目标时间段内的候选视频的视频文本信息的候选关键词集合;从所述候选关键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词,将提取的p个关键词作为p个视频关键词,所述p为正整数;将每个视频关键词的类型在视频文本信息集合中的占比,与所述每个视频关键词在所述目标候选视频的视频文本信息中的出现频次的乘积,作为所述每个视频关键词的权重,所述视频文本信息集合包括所述n个候选视频的视频文本信息;根据阈值识别规则对所述p个视频关键词的权重进行处理,得到所述目标候选视频的相似度阈值。
[0113]
在一实施例中,所述处理单元602具体用于:按照所述阈值识别规则,将所述p个视频关键词的权重之和作为第一调节参数,并将所述p个视频关键词在所述视频文本信息集合中的出现频次之和作为第二调节参数;按照所述阈值识别规则,对所述第一调节参数和所述第二调节参数进行处理,得到所述目标候选视频的相似度阈值,所述第一调节参数和所述第二调节参数与所述相似度阈值之间成反比。
[0114]
在一实施例中,所述处理单元602具体用于:将所述目标时间段内的候选视频的视频文本信息中的实体确定为候选关键词集合包括的关键词;和/或,获取所述目标时间段内的候选视频的视频文本信息中的多个词组,根据词频-逆文件频率算法计算每个词组的词频-逆文件频率值,根据所述词频-逆文件频率值,从所述多个词组中提取所述候选关键词集合包括的关键词。
[0115]
在一实施例中,所述处理单元602具体用于:若所述目标候选视频的视频文本信息未命中所述候选关键词集合的任一关键词,则将所述目标候选视频的相似度阈值设为高阈值参数;若所述目标候选视频的视频文本信息命中所述候选关键词集合中的至少一个关键词,则执行所述从所述候选关键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词的步骤。
[0116]
在一实施例中,所述n个候选视频的视频文本信息与所述描述文本之间的相似度均大于第一阈值,所述处理单元602具体用于:利用置信关键词集合、所述候选关键词集合中的关键词在所述视频文本信息集合中的出现频次,以及指定关键词类型中的一种或多种进行关键词筛选处理,得到必要关键词集合,所述置信关键词集合中的关键词是根据与所述描述文本之间的相似度大于第二阈值的待匹配视频的视频文本信息确定的,所述第二阈值大于所述第一阈值;若所述目标候选视频的视频文本信息未命中所述必要关键词集合的任一关键词,则将所述目标候选视频的相似度阈值设为高阈值参数;若所述目标候选视频的视频文本信息命中所述必要关键词集合中的至少一个关键词,则执行所述从所述候选关
键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词的步骤。
[0117]
在一实施例中,与所述描述文本匹配的候选视频的数量是多个,所述处理单元602具体用于:利用与所述描述文本匹配的多个候选视频的发布时间,以及与所述描述文本匹配的多个候选视频的视频文本信息与所述描述文本之间的相似度,对与所述描述文本匹配的多个候选视频进行排序处理,得到与所述描述文本匹配的多个候选视频的推荐顺序;根据所述推荐顺序,生成包含有与所述描述文本匹配的多个候选视频的推荐列表,并向所述目标对象推送所述推荐列表。
[0118]
在一实施例中,所述候选视频的视频文本信息与所述描述文本之间的相似度是通过调用相似预测模型确定的,所述相似预测模型是根据文本训练集训练得到的,所述文本训练集包括多个发表文本和每个发表文本对应的主题标签,所述发表文本和发表文本对应的主题标签是通过对目标格式的文本进行识别后构建的。
[0119]
可以理解的是,本技术实施例所描述的视频内容推送装置的各功能单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
[0120]
采用本技术的方法,可以获取针对目标对象的视频内容推送请求,该视频内容推送请求包括与热点事件相关的描述文本,再利用候选视频的视频文本信息和描述文本之间的相似度进行时间浓度分析,挖掘出目标时间段内的候选视频的视频文本信息,利用目标时间段内的候选视频的视频文本信息进行阈值识别处理,为每个候选视频设置个性化的相似度阈值,以精准匹配出与描述文本相匹配的候选视频,提高视频内容推送的准确性。
[0121]
如图7所示,图7是本技术实施例提供的一种计算机设备的结构示意图,该计算机设备70内部结构如图7所示,包括:一个或多个处理器701、存储器702、通信接口703。上述处理器701、存储器702和通信接口703可通过总线704或其他方式连接,本技术实施例以通过总线704连接为例。
[0122]
其中,处理器701(或称cpu(central processing unit,中央处理器))是计算机设备70的计算核心以及控制核心,其可以解析计算机设备70内的各类指令以及处理计算机设备70的各类数据,例如:cpu可以用于解析用户向计算机设备70所发送的开关机指令,并控制计算机设备70进行开关机操作;再如:cpu可以在计算机设备70内部结构之间传输各类交互数据,等等。通信接口703可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等),受处理器701的控制用于收发数据。存储器702(memory)是计算机设备70中的记忆设备,用于存放计算机程序和数据。可以理解的是,此处的存储器702既可以包括计算机设备70的内置存储器,当然也可以包括计算机设备70所支持的扩展存储器。存储器702提供存储空间,该存储空间存储了计算机设备70的操作系统,可包括但不限于:windows系统、linux系统、android系统、ios系统,等等,本技术对此并不作限定。处理器701通过运行存储器702中存储的计算机程序,执行如下操作:
[0123]
获取针对目标对象的视频内容推送请求,所述视频内容推送请求包括与热点事件相关的描述文本;
[0124]
根据所述描述文本与m个待匹配视频的视频文本信息之间的相似度,从所述m个待匹配视频中召回n个候选视频,所述m和所述n为正整数;
[0125]
根据所述n个候选视频的发布时间,对所述n个候选视频的视频文本信息与所述描
述文本之间的相似度进行时间浓度分析,确定目标时间段;
[0126]
根据所述目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定所述每个候选视频的相似度阈值;
[0127]
分别对所述每个候选视频的视频文本信息与所述描述文本之间的相似度,以及所述每个候选视频的相似度阈值进行阈值比较处理,确定与所述描述文本匹配的候选视频,向所述目标对象推送与所述描述文本匹配的候选视频。
[0128]
在一实施例中,所述处理器701具体用于:对每个时间段内候选视频的视频文本信息与所述描述文本之间的相似度进行统计,确定所述每个时间段对应的目标相似度;利用所述每个时间段对应的目标相似度绘制时间浓度曲线,并从所述时间浓度曲线中获取达到预设阈值的目标波峰;将所述时间浓度曲线中从所述目标波峰之前的第一波谷到所述目标波峰之后的第二波谷之间的时间段确定为目标时间段。
[0129]
在一实施例中,目标候选视频是所述n个候选视频的任一候选视频,所述处理器701具体用于:提取所述目标时间段内的候选视频的视频文本信息的候选关键词集合;从所述候选关键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词,将提取的p个关键词作为p个视频关键词,所述p为正整数;将每个视频关键词的类型在视频文本信息集合中的占比,与所述每个视频关键词在所述目标候选视频的视频文本信息中的出现频次的乘积,作为所述每个视频关键词的权重,所述视频文本信息集合包括所述n个候选视频的视频文本信息;根据阈值识别规则对所述p个视频关键词的权重进行处理,得到所述目标候选视频的相似度阈值。
[0130]
在一实施例中,所述处理器701具体用于:按照所述阈值识别规则,将所述p个视频关键词的权重之和作为第一调节参数,并将所述p个视频关键词在所述视频文本信息集合中的出现频次之和作为第二调节参数;按照所述阈值识别规则,对所述第一调节参数和所述第二调节参数进行处理,得到所述目标候选视频的相似度阈值,所述第一调节参数和所述第二调节参数与所述相似度阈值之间成反比。
[0131]
在一实施例中,所述处理器701具体用于:将所述目标时间段内的候选视频的视频文本信息中的实体确定为候选关键词集合包括的关键词;和/或,获取所述目标时间段内的候选视频的视频文本信息中的多个词组,根据词频-逆文件频率算法计算每个词组的词频-逆文件频率值,根据所述词频-逆文件频率值,从所述多个词组中提取所述候选关键词集合包括的关键词。
[0132]
在一实施例中,所述处理器701具体用于:若所述目标候选视频的视频文本信息未命中所述候选关键词集合的任一关键词,则将所述目标候选视频的相似度阈值设为高阈值参数;若所述目标候选视频的视频文本信息命中所述候选关键词集合中的至少一个关键词,则执行所述从所述候选关键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词的步骤。
[0133]
在一实施例中,所述n个候选视频的视频文本信息与所述描述文本之间的相似度均大于第一阈值,所述处理器701具体用于:利用置信关键词集合、所述候选关键词集合中的关键词在所述视频文本信息集合中的出现频次,以及指定关键词类型中的一种或多种进行关键词筛选处理,得到必要关键词集合,所述置信关键词集合中的关键词是根据与所述描述文本之间的相似度大于第二阈值的待匹配视频的视频文本信息确定的,所述第二阈值
大于所述第一阈值;若所述目标候选视频的视频文本信息未命中所述必要关键词集合的任一关键词,则将所述目标候选视频的相似度阈值设为高阈值参数;若所述目标候选视频的视频文本信息命中所述必要关键词集合中的至少一个关键词,则执行所述从所述候选关键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词的步骤。
[0134]
在一实施例中,与所述描述文本匹配的候选视频的数量是多个,所述处理器701具体用于:利用与所述描述文本匹配的多个候选视频的发布时间,以及与所述描述文本匹配的多个候选视频的视频文本信息与所述描述文本之间的相似度,对与所述描述文本匹配的多个候选视频进行排序处理,得到与所述描述文本匹配的多个候选视频的推荐顺序;根据所述推荐顺序,生成包含有与所述描述文本匹配的多个候选视频的推荐列表,并向所述目标对象推送所述推荐列表。
[0135]
在一实施例中,所述候选视频的视频文本信息与所述描述文本之间的相似度是通过调用相似预测模型确定的,所述相似预测模型是根据文本训练集训练得到的,所述文本训练集包括多个发表文本和每个发表文本对应的主题标签,所述发表文本和发表文本对应的主题标签是通过对目标格式的文本进行识别后构建的。
[0136]
具体实现中,本技术实施例中所描述的处理器701、存储器702及通信接口703可执行本技术实施例提供的一种视频内容推送方法中所描述的实现方式,也可执行本技术实施例提供的一种视频内容推送装置中所描述的实现方式,在此不再赘述。
[0137]
采用本技术的方法,可以获取针对目标对象的视频内容推送请求,该视频内容推送请求包括与热点事件相关的描述文本,再利用候选视频的视频文本信息和描述文本之间的相似度进行时间浓度分析,挖掘出目标时间段内的候选视频的视频文本信息,利用目标时间段内的候选视频的视频文本信息进行阈值识别处理,为每个候选视频设置个性化的相似度阈值,以精准匹配出与描述文本相匹配的候选视频,提高视频内容推送的准确性。
[0138]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机设备上运行时,使得计算机设备执行上述任一可能实现方式的视频内容推送方法。其具体实现方式可参考前文描述,此处不再赘述。
[0139]
本技术实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现本技术实施例提供的视频内容推送方法的步骤。其具体实现方式可参考前文描述,此处不再赘述。
[0140]
本技术实施例还提供了一种计算机程序,所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本技术实施例提供的视频内容推送方法。其具体实现方式可参考前文描述,此处不再赘述。
[0141]
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0142]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储
介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0143]
以上所揭露的仅为本技术部分实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
技术特征:1.一种视频内容推送方法,其特征在于,所述方法包括:获取针对目标对象的视频内容推送请求,所述视频内容推送请求包括与热点事件相关的描述文本;根据所述描述文本与m个待匹配视频的视频文本信息之间的相似度,从所述m个待匹配视频中召回n个候选视频,所述m和所述n为正整数;根据所述n个候选视频的发布时间,对所述n个候选视频的视频文本信息与所述描述文本之间的相似度进行时间浓度分析,确定目标时间段;根据所述目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定所述每个候选视频的相似度阈值;分别对所述每个候选视频的视频文本信息与所述描述文本之间的相似度,以及所述每个候选视频的相似度阈值进行阈值比较处理,确定与所述描述文本匹配的候选视频,向所述目标对象推送与所述描述文本匹配的候选视频。2.根据权利要求1所述的方法,其特征在于,所述根据所述n个候选视频的发布时间,对所述n个候选视频的视频文本信息与所述描述文本之间的相似度进行时间浓度分析,确定目标时间段,包括:按照所述n个候选视频的发布时间划分多个时间段;对每个时间段内候选视频的视频文本信息与所述描述文本之间的相似度进行统计,确定所述每个时间段对应的目标相似度;利用所述每个时间段对应的目标相似度绘制时间浓度曲线,并从所述时间浓度曲线中获取达到预设阈值的目标波峰;将所述时间浓度曲线中从所述目标波峰之前的第一波谷到所述目标波峰之后的第二波谷之间的时间段确定为目标时间段。3.根据权利要求1所述的方法,其特征在于,目标候选视频是所述n个候选视频的任一候选视频,所述根据所述目标时间段内的候选视频的视频文本信息对目标候选视频进行阈值识别处理,确定所述目标候选视频的相似度阈值的过程,包括:提取所述目标时间段内的候选视频的视频文本信息的候选关键词集合;从所述候选关键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词,将提取的p个关键词作为p个视频关键词,所述p为正整数;将每个视频关键词的类型在视频文本信息集合中的占比,与所述每个视频关键词在所述目标候选视频的视频文本信息中的出现频次的乘积,作为所述每个视频关键词的权重,所述视频文本信息集合包括所述n个候选视频的视频文本信息;根据阈值识别规则对所述p个视频关键词的权重进行处理,得到所述目标候选视频的相似度阈值。4.根据权利要求3所述的方法,其特征在于,所述根据阈值识别规则对所述p个视频关键词的权重进行处理,得到所述目标候选视频的相似度阈值,包括:按照所述阈值识别规则,将所述p个视频关键词的权重之和作为第一调节参数,并将所述p个视频关键词在所述视频文本信息集合中的出现频次之和作为第二调节参数;按照所述阈值识别规则,对所述第一调节参数和所述第二调节参数进行处理,得到所述目标候选视频的相似度阈值,所述第一调节参数和所述第二调节参数与所述相似度阈值
之间成反比。5.根据权利要求3所述的方法,其特征在于,所述提取所述目标时间段内的候选视频的视频文本信息的候选关键词集合,包括:将所述目标时间段内的候选视频的视频文本信息中的实体确定为候选关键词集合包括的关键词;和/或,获取所述目标时间段内的候选视频的视频文本信息中的多个词组,根据词频-逆文件频率算法计算每个词组的词频-逆文件频率值,根据所述词频-逆文件频率值,从所述多个词组中提取所述候选关键词集合包括的关键词。6.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述目标候选视频的视频文本信息未命中所述候选关键词集合的任一关键词,则将所述目标候选视频的相似度阈值设为高阈值参数;若所述目标候选视频的视频文本信息命中所述候选关键词集合中的至少一个关键词,则执行所述从所述候选关键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词的步骤。7.根据权利要求3所述的方法,其特征在于,所述n个候选视频的视频文本信息与所述描述文本之间的相似度均大于第一阈值;所述方法还包括:利用置信关键词集合、所述候选关键词集合中的关键词在所述视频文本信息集合中的出现频次,以及指定关键词类型中的一种或多种进行关键词筛选处理,得到必要关键词集合,所述置信关键词集合中的关键词是根据与所述描述文本之间的相似度大于第二阈值的待匹配视频的视频文本信息确定的,所述第二阈值大于所述第一阈值;若所述目标候选视频的视频文本信息未命中所述必要关键词集合的任一关键词,则将所述目标候选视频的相似度阈值设为高阈值参数;若所述目标候选视频的视频文本信息命中所述必要关键词集合中的至少一个关键词,则执行所述从所述候选关键词集合中提取所述目标候选视频的视频文本信息命中的p个关键词的步骤。8.根据权利要求1所述的方法,其特征在于,与所述描述文本匹配的候选视频的数量是多个,所述向所述目标对象推送与所述描述文本匹配的候选视频,包括:利用与所述描述文本匹配的多个候选视频的发布时间,以及与所述描述文本匹配的多个候选视频的视频文本信息与所述描述文本之间的相似度,对与所述描述文本匹配的多个候选视频进行排序处理,得到与所述描述文本匹配的多个候选视频的推荐顺序;根据所述推荐顺序,生成包含有与所述描述文本匹配的多个候选视频的推荐列表,并向所述目标对象推送所述推荐列表。9.根据权利要求1-8中任一项所述的方法,其特征在于,所述候选视频的视频文本信息与所述描述文本之间的相似度是通过调用相似预测模型确定的,所述相似预测模型是根据文本训练集训练得到的,所述文本训练集包括多个发表文本和每个发表文本对应的主题标签,所述发表文本和发表文本对应的主题标签是通过对目标格式的文本进行识别后构建的。10.一种视频内容推送装置,其特征在于,所述装置包括:获取单元,用于获取针对目标对象的视频内容推送请求,所述视频内容推送请求包括
与热点事件相关的描述文本;处理单元,用于根据所述描述文本与m个待匹配视频的视频文本信息之间的相似度,从所述m个待匹配视频中召回n个候选视频,所述m和所述n为正整数;所述处理单元,还用于根据所述n个候选视频的发布时间,对所述n个候选视频的视频文本信息与所述描述文本之间的相似度进行时间浓度分析,确定目标时间段;所述处理单元,还用于根据所述目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定所述每个候选视频的相似度阈值;所述处理单元,还用于分别对所述每个候选视频的视频文本信息与所述描述文本之间的相似度,以及所述每个候选视频的相似度阈值进行阈值比较处理,确定与所述描述文本匹配的候选视频,向所述目标对象推送与所述描述文本匹配的候选视频。11.一种计算机设备,其特征在于,所述计算机设备包括存储器、通信接口以及处理器,所述存储器、所述通信接口和所述处理器相互连接;所述存储器存储有计算机程序,所述处理器调用所述存储器中存储的计算机程序,用于实现如权利要求1-9中任一项所述的视频内容推送方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的视频内容推送方法。13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现如权利要求1-9中任一项所述的视频内容推送方法。
技术总结一种视频内容推送方法、装置及相关设备,可以应用于云技术、人工智能、车联网、智慧交通、智能家居等各种领域或场景,该方法包括:获取针对目标对象的视频内容推送请求,视频内容推送请求包括与热点事件相关的描述文本;根据召回的N个候选视频的视频文本信息与描述文本之间的相似度进行时间浓度分析确定目标时间段;根据目标时间段内的候选视频的视频文本信息对每个候选视频进行阈值识别处理,确定每个候选视频的相似度阈值;根据每个候选视频的视频文本信息与描述文本之间的相似度,以及每个候选视频的相似度阈值,确定与描述文本匹配的候选视频,并向目标对象推送该匹配的候选视频。本申请实施例,可以提高视频内容推送的准确性。确性。确性。
技术研发人员:刘楚妮
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.03.30
技术公布日:2022/7/5