摘要
本发明公开了一种面向科技信息行业的短文本相似度计算方法,属于自然语言处理及深度学习技术领域,包括:获取文本数据,并进行预处理;基于BERT网络构建相似度计算模型;对预处理后的文本数据进行随机掩码,基于掩码后的文本数据对相似度计算模型进行训练;训练过程中,利用聚类算法选取掩码后的文本数据中的锚样本,以锚样本为中心度量锚样本与其余样本之间的相似性,对其余样本进行分类分级;基于分类分级结果的误差优化模型参数,直至达到迭代次数,获得训练后的相似度计算模型;将待检测的短文本输入训练后的相似度计算模型中,获得短文本相似度结果。本发明训练出的模型对数据重要性相关的关键词更加敏感,大大提升了相似度计算精度。
技术关键词
样本
文本
聚类算法
度计算方法
模型训练模块
数据处理模块
度量
误差
深度学习技术
计算机装置
选取特征
科技
计算机程序产品
处理器
参数
分词
自然语言
可读存储介质
系统为您推荐了相关专利信息
信息优化方法
空间聚类算法
深度学习模型
语义
图片