摘要
本发明属于大模型训练技术领域,特别涉及一种电力技术标准知识问答大模型训练数据构造方法及装置;所述方法包括:获取电力技术标准文档;对所述电力技术标准文档进行预处理,获得预处理后电力技术标准文档;将预处理后电力技术标准文档输入GNN网络进行特征提取,获得结构化的信息;基于结构化的信息对电力技术标准文档进行动态优化的文档分割,获得分割后的文档片段;分割后的文档片段进行多任务和多模态联合处理,获得电力技术标准知识问答大模型训练数据。本发明能够高效、准确进行电力技术标准文档的自动化拆分,极大地提升了电力技术标准检索问答系统的性能,降低了人工成本,加快了信息获取的速度,具有显著的社会经济效益。
技术关键词
数据构造方法
多任务
电力
文本特征向量
图像特征向量
信息传递机制
多模态
联合损失函数
BERT模型
摘要
关键词
节点处
邻居
关系建模
网络
节点更新