本发明属于档案编研,具体是一种基于双驱动模型的智慧档案编研系统及方法。
背景技术:
1、智慧档案编研系统是以双驱动ai智能编研模型为基础,通过梳理档案编研流程,融合自然语言处理技术和流程自定义技术,构建而成的系统框架。该系统将机器辅助编研与人工编研相结合,提供一系列技术应用,包括ai辅助编文、ai目录提纲编制、ai成文润色、ai编写规范校验、ai文本摘要以及ai编研问答机器人等功能。此系统显著提高了档案编研工作的信息化和智能化水平。
2、传统的档案编研工作主要依赖人工操作,涵盖档案的收集、整理、编目、编纂和研究等环节。这些环节需要耗费大量的人力和时间,工作效率较低。人工整理和编目过程中容易出现错误和遗漏,影响档案的完整性和检索效果。人工编研不仅费时费力,还难以满足人民群众日益增长的文化需求。为此,亟需开发一套以双驱动智能编研模型为基础的智慧档案编研系统,专门针对档案编研进行优化,解决传统档案编研的缺陷,为档案编研提供了更加便捷、专业的方案。
技术实现思路
1、本发明的目的在于克服现有技术的缺陷,提供一种基于双驱动模型的智慧档案编研系统及方法。
2、为实现上述目的,本发明采用了如下技术方案:
3、第一方面,一种基于双驱动模型的智慧档案编研系统,包括:
4、编研素材汇总模块,其配置为:包括编研素材采集后的数据处理技术与数据分析技术;其中,数据处理技术包括文本ocr识别技术、视频与照片图像分析技术;数据分析技术在从素材待分析库中对各类编研素材进行有效分析,结合编研主题,通过大语言模型实体抽取技术,进行有效整合汇总;
5、ai目录编制提纲模块,其配置为:包括自动分析用户输入的提纲标题和自定义提纲结构;通过编研样本模型,自动分析用户输入的提纲标题,精确识别关键章节,并生成有序的目录提纲;
6、ai辅助编文模块,其配置为:根据用户提供的文本需求和主题,迅速生成结构严谨、内容丰富的文本;
7、ai成文润色模块,其配置为:基于泛语言模型,提供全面的文本润色功能;
8、ai编写规范校验模块,其配置为:采用了泛语言模型,提供全面的文本规范检测和内容一致性校验;
9、ai文本摘要模块,其配置为:基于泛语言模型,提供高效地总结和归纳文本的核心内容功能;
10、ai编研回答机器人模块,其配置为:基于泛语言模型,提供了一个高效的人机交互界面。
11、优选的,所述编研素材汇总模块,其进一步配置为:采集后的全文数据调用通用文本识别服务,识别后通过语义通顺度模型进行内容校验,对疑似未识别字体提供标注与置信度分析,最后通过大语言模型技术,进行文本纠错;视频和照片图像分析技术采用大模型视觉分析能力,总结概括图像和视频的内容,生成一段内容概览,最后存储在素材待分析库中。
12、优选的,所述ai目录编制提纲模块,其进一步配置为:在目录编制提纲方面,增加结构信息、词序和句序,同时捕捉语言的细节,通过上下文表示技术编码档案句子和词语之间的依存关系,采用transformer架构,维持现有的预训练任务,同时引入了新的预训练目标:编写提纲结构目标。
13、优选的,所述ai辅助编文模块,其进一步配置为:具备多样化的写作模板供用户选择,还提供实时建议功能,能够在用户编写文本时提供即时反馈和建议,帮助用户快速撰写文章,提高写作效率和质量,其中,素材库中的图像检索技术采用空间多模态图推理模型,包括双模融合模块、图推理模块、分类模块。
14、优选的,所述ai润色模块,其进一步配置为:根据文本的上下文适时补充必要的细节或例证,并纠正语法错误、用词不当的问题。
15、优选的,所述ai编写规范校验模块,其进一步配置为:自动识别并检测档案编研文本中的格式错误、语法失误以及拼写问题,及时纠正这些错误,还提供具体的优化建议。
16、优选的,所述ai文本摘要模块,其进一步配置为:根据用户需求生成不同长度的摘要,适用于多种应用场景;用户可以选择素材库中的任一文档或正在编辑的文档中的指定文本区域,通过点击文本摘要按钮并选择期望的摘要长度,系统将自动提炼出精准的文本摘要,对生成的摘要内容进行标签化处理,提取出10个关键信息点并为它们分配适当的标签。
17、优选的,所述ai编研回答机器人模块,其进一步配置为:帮助用户快速检索编研素材,根据用户的具体需求提供专业建议。
18、第二方面,一种基于双驱动模型的智慧档案编研方法,包括以下步骤:
19、s1数据收集:通过个人资料库、档案资料上传或者导入等方法接收关于档案编研素材数据,并对这些数据进行预处理,存储在编研素材库中,编研素材库中的数据称之为数据集a1;
20、s2数据归类分析:对数据集a1进行分类处理,得到数据集b,包括文本数据集b1,音频数据集b2,图像数据集b3以及视频数据集b4;
21、s3数据清洗:通过泛语言模型对数据集b进行数据清洗,得到清洗后的数据集c,包括文本数据集c1、音频数据集c2、图像数据集c3与视频数据集c4;
22、s4数据提炼:通过泛语言模型对数据集c提取关键信息,标签化,实体抽取和数据关系关联处理得到数据集d,包括关键信息数据集d1,标签数据集d2、实体数据集d3及知识图谱结构数据d4;
23、s5模型训练:将数据集c按7:2:1的比例划分为训练集t1、验证集t2和测试集t3,数据集d划分为按7:2:1的比例划分为训练集t11、验证集t12和测试集t13,训练集分别验证模型在验证集、测试集上的性能和质量,确保训练无误,数据集t1训练样本模型,训练后得到档案编研样本模型,把上述步骤中得到的数据集t11在泛语言模型上进行微调,得到调整后的泛语言模型;
24、s6构建编研知识库:将历史档案的数据通过向量化技术存储在向量数据库中,并和样本模型和泛语言模型建立关联,通过知识库辅助双模型,实现模型在档案编研领域更加专业化;
25、s7模型辅助档案编研:通过上述训练后的双模型,用户点击系统上的ai目录编制提纲模块、ai辅助编文模块、ai成文润色模块、ai编写规范校验模块、ai文本摘要模块、ai编研回答机器人模块,实现ai辅助用户在线档案编研;
26、s8编研成果输出:通过编研成果输出功能,用户将编写好的内容输出为电子书、图文集或者专题报告,下载到本地可以进行查看。
27、优选的,步骤s5之后,还包括:s51模型验证:使用验证集t2和t12评估模型性能,计算准确率、召回率等关键指标,并生成性能报告,其中,该模型的核心评价指标为宏观召回率,公式如下:
28、
29、其中,me为实体提及的集合,在编号为i的句子中,ai为模型召回的实体提及,mi为该句子真实的实体提及。
30、综上所述,由于采用了上述技术方案,本发明的有益效果是:
31、本发明中,能够将档案元数据信息处理、双驱动智能编研模型、编研知识图谱,以及ai分析等先进技术与档案编研业务紧密结合,这样的融合形成了一个全面且高效的智慧编研方案,该方案不仅优化了档案管理和检索流程,还增强了数据分析和决策支持的能力,显著提升了编研工作的精准度和效率。
1.一种基于双驱动模型的智慧档案编研系统,其特征在于,包括:
2.如权利要求1所述的一种基于双驱动模型的智慧档案编研系统,其特征在于,所述编研素材汇总模块,其进一步配置为:采集后的全文数据调用通用文本识别服务,识别后通过语义通顺度模型进行内容校验,对疑似未识别字体提供标注与置信度分析,最后通过大语言模型技术,进行文本纠错;视频和照片图像分析技术采用大模型视觉分析能力,总结概括图像和视频的内容,生成一段内容概览,最后存储在素材待分析库中。
3.如权利要求1所述的一种基于双驱动模型的智慧档案编研系统,其特征在于,所述ai目录编制提纲模块,其进一步配置为:在目录编制提纲方面,增加结构信息、词序和句序,同时捕捉语言的细节,通过上下文表示技术编码档案句子和词语之间的依存关系,采用transformer架构,维持现有的预训练任务,同时引入了新的预训练目标:编写提纲结构目标。
4.如权利要求1所述的一种基于双驱动模型的智慧档案编研系统,其特征在于,所述ai辅助编文模块,其进一步配置为:具备多样化的写作模板供用户选择,还提供实时建议功能,能够在用户编写文本时提供即时反馈和建议,帮助用户快速撰写文章,提高写作效率和质量,其中,素材库中的图像检索技术采用空间多模态图推理模型,包括双模融合模块、图推理模块、分类模块。
5.如权利要求1所述的一种基于双驱动模型的智慧档案编研系统,其特征在于,所述ai润色模块,其进一步配置为:根据文本的上下文适时补充必要的细节或例证,并纠正语法错误、用词不当的问题。
6.如权利要求1所述的一种基于双驱动模型的智慧档案编研系统,其特征在于,所述ai编写规范校验模块,其进一步配置为:自动识别并检测档案编研文本中的格式错误、语法失误以及拼写问题,及时纠正这些错误,还提供具体的优化建议。
7.如权利要求1所述的一种基于双驱动模型的智慧档案编研系统,其特征在于,所述ai文本摘要模块,其进一步配置为:根据用户需求生成不同长度的摘要,适用于多种应用场景;用户可以选择素材库中的任一文档或正在编辑的文档中的指定文本区域,通过点击文本摘要按钮并选择期望的摘要长度,系统将自动提炼出精准的文本摘要,对生成的摘要内容进行标签化处理,提取出10个关键信息点并为它们分配适当的标签。
8.如权利要求1所述的一种基于双驱动模型的智慧档案编研系统,其特征在于,所述ai编研回答机器人模块,其进一步配置为:帮助用户快速检索编研素材,根据用户的具体需求提供专业建议。
9.一种基于双驱动模型的智慧档案编研方法,其特征在于,包括以下步骤:
10.如权利要求9所述的一种基于双驱动模型的智慧档案编研方法,其特征在于,步骤s5之后,还包括:s51模型验证:使用验证集t2和t12评估模型性能,计算准确率、召回率等关键指标,并生成性能报告,其中,该模型的核心评价指标为宏观召回率,公式如下: