一种面向科技信息行业的短文本相似度计算方法

AITNT
正文
推荐专利
一种面向科技信息行业的短文本相似度计算方法
申请号:CN202510593169
申请日期:2025-05-09
公开号:CN120105127A
公开日期:2025-06-06
类型:发明专利
摘要
本发明公开了一种面向科技信息行业的短文本相似度计算方法,属于自然语言处理及深度学习技术领域,包括:获取文本数据,并进行预处理;基于BERT网络构建相似度计算模型;对预处理后的文本数据进行随机掩码,基于掩码后的文本数据对相似度计算模型进行训练;训练过程中,利用聚类算法选取掩码后的文本数据中的锚样本,以锚样本为中心度量锚样本与其余样本之间的相似性,对其余样本进行分类分级;基于分类分级结果的误差优化模型参数,直至达到迭代次数,获得训练后的相似度计算模型;将待检测的短文本输入训练后的相似度计算模型中,获得短文本相似度结果。本发明训练出的模型对数据重要性相关的关键词更加敏感,大大提升了相似度计算精度。
技术关键词
样本 文本 聚类算法 度计算方法 模型训练模块 数据处理模块 度量 误差 深度学习技术 计算机装置 选取特征 科技 计算机程序产品 处理器 参数 分词 自然语言 可读存储介质
系统为您推荐了相关专利信息
1
一种软件代码与需求追踪关系的建立方法及系统
语义向量 文本 标识符 逻辑 关系
2
基于多尺度与CLIP语义监督的AI视频质量评估方法及装置
语义 多尺度 视频段 文本编码器 视频帧特征
3
对象勾画方法、装置及电子设备
对象 影像 勾画方法 样本 上采样
4
文档内容识别的结构信息优化方法
信息优化方法 空间聚类算法 深度学习模型 语义 图片
5
一种基于模型分层的多任务联邦学习客户端贡献度度量方法
客户端 多任务 度量 分布式架构 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号