摘要
本发明公开了一种面向检索增强生成的文本集相似度计算方法和装置,包括:对获取的文本集进行预处理后,计算文本集中任意两文本之间的余弦相似度和BM25分数;将余弦相似度和BM25分数分别作为语义相似度权值和文本相似度权值,并构建两个子图;对两个子图分别进行多轮聚类并记录子图中每个节点的边权重的存活时间,基于同一节点在两个子图中的边权重的存活时间来确定每个文本的真实边权,并基于真实边权得到由文本作为节点的综合图;采用Kruskal算法对综合图进行计算得到最小生成树,基于最小生成树确定文本集内文本的相似度,这样能够实现在保证处理效率的情况下,准确描述一个文本集内的文本相似度。
技术关键词
文本
度计算方法
生成树
节点
语义向量
处理器
聚类
队列
格式化
可读存储介质
存储器
模块
程序
分词
计算机
编码
算法
系统为您推荐了相关专利信息
智能问答方法
层次聚类算法
答案
电力设备参数
节点
AI助手
人工智能模型
模拟沙盘
工作辅助系统
格式
大语言模型
非暂态计算机可读存储介质
模板
识别模块
电子设备
双机械臂协同
制作饮品
阶段
机器臂技术
存放半成品