摘要
本发明公开了计算机应用技术领域的一种基于对比学习的电力行业标准条款语义相似性度量方法、系统、介质及设备,旨在解决现有技术无法满足实际需求的问题。获取待比较的电力行业标准条款数据对;对待比较的电力行业标准条款数据对进行数据预处理,得到处理后待比较的电力行业标准条款数据对;基于训练并优化好的RoBERTa模型进行数据编码,得到处理后待比较的电力行业标准条款向量对;计算处理后待比较的电力行业标准条款向量对的相似性,并得到相似性评分;根据相似性评分度量待比较的电力行业标准条款数据之间的语义相似性。本发明能提高工作效率、降低安全风险、解决数据稀缺问题、推动电力行业标准化和智能化的发展以及解决标准文件冲突和重叠问题。
技术关键词
数据编码
样本
令牌
度量
语义
词语
存储计算机程序
文本
计算机装置
指令
数据获取模块
策略
计算机程序产品
处理器
可读存储介质
参数