摘要
本发明提出结合大模型分析和文本聚类的知识库问答对生成方法及系统;所述方法包括以下步骤:对每个文档进行预处理并逐句分割,将获得的句子集作为参考答案;依据参考答案通过多个大模型平台分别生成对应的特指问句,对同一参考答案生成的特指问句进行文本聚类,每个簇选取一个问句作为代表问句;对每个“代表问句‑参考答案”进行审核完善,并生成候选问答对;综合比较所有文档候选问答对的内容,对可能存在信息冲突的问答对进行聚类,对聚类结果进行分析研判,生成可信的知识库问答对;将可信的知识库问答对与知识库中现有的问答对逐一进行比较,若不存在信息冲突,则入库更新。本发明基于文档生成高质量的问答对数据,辅助提高RAG技术的应用效果。
技术关键词
知识库问答
生成方法
文本
聚类
近邻传播算法
问答对数据
代表
生成系统
答案
平台
元宝
存储器
处理器
字符
标签
系统为您推荐了相关专利信息
行人轨迹预测方法
大语言模型
深度学习模型
模板
自然语言
关系抽取模型
预训练语言模型
标记特征
关系抽取方法
序列
音频
频率检测模块
数模转换模块
生成提示音
参数
交互式特征
深度学习模型
电商
文本处理模型
置信度阈值