一种面向检索增强生成的文本集相似度计算方法和装置

正文

推荐专利

申请号：CN202411803529

申请日期：2024-12-10

公开号：CN119311856B

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了一种面向检索增强生成的文本集相似度计算方法和装置，包括：对获取的文本集进行预处理后，计算文本集中任意两文本之间的余弦相似度和BM25分数；将余弦相似度和BM25分数分别作为语义相似度权值和文本相似度权值，并构建两个子图；对两个子图分别进行多轮聚类并记录子图中每个节点的边权重的存活时间，基于同一节点在两个子图中的边权重的存活时间来确定每个文本的真实边权，并基于真实边权得到由文本作为节点的综合图；采用Kruskal算法对综合图进行计算得到最小生成树，基于最小生成树确定文本集内文本的相似度，这样能够实现在保证处理效率的情况下，准确描述一个文本集内的文本相似度。

技术关键词

文本度计算方法生成树节点语义向量处理器聚类队列格式化可读存储介质存储器模块程序分词计算机编码算法

系统为您推荐了相关专利信息

基于轻量级大模型的电力知识体系构建与智能问答方法

智能问答方法层次聚类算法答案电力设备参数节点

一种基于区块链的行李异常预警系统

行李箱体深度神经网络数值视觉预警系统

一种基于AI助手的人员工作辅助方法及其系统

AI助手人工智能模型模拟沙盘工作辅助系统格式

网站的多维度检测方法、装置、电子设备及存储介质

大语言模型非暂态计算机可读存储介质模板识别模块电子设备

一种双机械臂交换位与预约任务的多饮品并发制作方法

双机械臂协同制作饮品阶段机器臂技术存放半成品

一种面向检索增强生成的文本集相似度计算方法和装置

站点导航

APP 下载