一种面向检索增强生成的文本集相似度计算方法和装置

AITNT
正文
推荐专利
一种面向检索增强生成的文本集相似度计算方法和装置
申请号:CN202411803529
申请日期:2024-12-10
公开号:CN119311856B
公开日期:2025-05-16
类型:发明专利
摘要
本发明公开了一种面向检索增强生成的文本集相似度计算方法和装置,包括:对获取的文本集进行预处理后,计算文本集中任意两文本之间的余弦相似度和BM25分数;将余弦相似度和BM25分数分别作为语义相似度权值和文本相似度权值,并构建两个子图;对两个子图分别进行多轮聚类并记录子图中每个节点的边权重的存活时间,基于同一节点在两个子图中的边权重的存活时间来确定每个文本的真实边权,并基于真实边权得到由文本作为节点的综合图;采用Kruskal算法对综合图进行计算得到最小生成树,基于最小生成树确定文本集内文本的相似度,这样能够实现在保证处理效率的情况下,准确描述一个文本集内的文本相似度。
技术关键词
文本 度计算方法 生成树 节点 语义向量 处理器 聚类 队列 格式化 可读存储介质 存储器 模块 程序 分词 计算机 编码 算法
系统为您推荐了相关专利信息
1
基于轻量级大模型的电力知识体系构建与智能问答方法
智能问答方法 层次聚类算法 答案 电力设备参数 节点
2
一种基于区块链的行李异常预警系统
行李箱体 深度神经网络 数值 视觉 预警系统
3
一种基于AI助手的人员工作辅助方法及其系统
AI助手 人工智能模型 模拟沙盘 工作辅助系统 格式
4
网站的多维度检测方法、装置、电子设备及存储介质
大语言模型 非暂态计算机可读存储介质 模板 识别模块 电子设备
5
一种双机械臂交换位与预约任务的多饮品并发制作方法
双机械臂协同 制作饮品 阶段 机器臂技术 存放半成品
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号