摘要
本发明提供一种基于大语言模型的RAG答案质量评估方法,将问题输入到待比较的两个RAG系统生成每个问题对应的答案对;比较答案对长度,若长度差超过预设阈值,则通过答案长度弱对齐方法使较短答案所属RAG系统重新生成答案;对重新生成的答案长度差仍不满足预设阈值,则通过答案长度强对齐方法使较短答案长度与较长答案对齐;分别对长度对齐的答案对进行评分;并交换答案顺序重新评分,将两次评分之和作为最终得分;步骤5:比较待比较的两个RAG系统的答案得分,基于多次试验结果绘制箱线图。本发明采取答案对齐,位置交换,多次试验等方式解决原有方案中存在的长度偏见,位置偏见以及试验不稳定性问题,更加准确的解决RAG系统能力的评估问题。
技术关键词
大语言模型
对齐方法
生成答案
对齐模块
评估系统
可视化模块
定义
指标
系统为您推荐了相关专利信息
生成医学报告
大语言模型
医学知识图谱
患者
自然语言
鲁棒模型
鲁棒性
样本生成方法
训练集
大语言模型
大语言模型
非结构化文本处理
元数据处理方法
样本
计算机设备
威胁情报分析方法
实体关系抽取
文本
节点
三元组