一种面向科技信息行业的短文本相似度计算方法

正文

推荐专利

申请号：CN202510593169

申请日期：2025-05-09

公开号：CN120105127A

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开了一种面向科技信息行业的短文本相似度计算方法，属于自然语言处理及深度学习技术领域，包括：获取文本数据，并进行预处理；基于BERT网络构建相似度计算模型；对预处理后的文本数据进行随机掩码，基于掩码后的文本数据对相似度计算模型进行训练；训练过程中，利用聚类算法选取掩码后的文本数据中的锚样本，以锚样本为中心度量锚样本与其余样本之间的相似性，对其余样本进行分类分级；基于分类分级结果的误差优化模型参数，直至达到迭代次数，获得训练后的相似度计算模型；将待检测的短文本输入训练后的相似度计算模型中，获得短文本相似度结果。本发明训练出的模型对数据重要性相关的关键词更加敏感，大大提升了相似度计算精度。

技术关键词

样本文本聚类算法度计算方法模型训练模块数据处理模块度量误差深度学习技术计算机装置选取特征科技计算机程序产品处理器参数分词自然语言可读存储介质

系统为您推荐了相关专利信息

一种软件代码与需求追踪关系的建立方法及系统

语义向量文本标识符逻辑关系

基于多尺度与CLIP语义监督的AI视频质量评估方法及装置

语义多尺度视频段文本编码器视频帧特征

对象勾画方法、装置及电子设备

对象影像勾画方法样本上采样

文档内容识别的结构信息优化方法

信息优化方法空间聚类算法深度学习模型语义图片

一种基于模型分层的多任务联邦学习客户端贡献度度量方法

客户端多任务度量分布式架构参数

一种面向科技信息行业的短文本相似度计算方法

站点导航

APP 下载