摘要
本发明提供了一种多场景数据融合的公文行业大模型训练方法及系统,在该方法中,获取对应于多种公文业务场景的多种公文数据;针对所获取的每一种公文数据进行公文要素数据清洗,包括:对公文标题、公文正文、公文大纲以及公文摘要中的至少一种进行数据清洗;针对每一种公文业务场景,利用对应该公文业务场景的数据清洗后的公文数据构造训练样本;其中,训练样本中包括:指令、输入以及输出三部分;选择大语言模型(LLM)作为预训练模型;利用各种公文业务场景的训练样本训练该大语言模型,从而训练出多场景数据融合的公文行业的大模型。本发明能够更好地利用人工智能大模型来生成公文,提高智能化及减少人工操作。
技术关键词
摘要
生成场景
关键词
模型训练方法
指令
主题
预训练模型
大语言模型
多场景
文章
参数
模型训练系统
格式
决策
微调方法
会议
数据获取模块
地点
系统为您推荐了相关专利信息
模型训练方法
检测输电线路
模型训练装置
网络结构
线路检测技术
稀疏重构算法
追溯方法
字典管理
报警事件信息
分类规则
画像生成方法
计算机程序产品
数据
画像生成装置
可读存储介质