摘要
本发明公开一种大语言模型多轮对话上下文保持能力的量化评估系统及方法,涉及自然语言处理评估技术领域。针对LLM在多轮对话能力评测中存在的标准缺失和主观依赖问题,采用方案包括:动态场景生成模块,基于规则模板和LLM协同生成含标记信息点的多轮对话流;干扰注入模块,在对话流中插入可控干扰;三层评估模块,以带干扰对话流作为输入,通过记忆精度层、关联深度层和干扰抗性层量化LLM的基础记忆衰退、话题逻辑关联度和抗干扰鲁棒性,计算信息衰减率、衰减指数和抗干扰系数;衰减率分析模块,基于计算结果对应生成曲线,直观呈现LLM的性能变化趋势;可视化报告模块,整合前述输出生成交互式评估报告。本发明用于LLM上下文理解能力的客观评测。
技术关键词
大语言模型
多轮对话
量化评估系统
正确率
量化评估方法
动态场景
记忆
话题
分析模块
语义
曲线
指数
鲁棒性
阶段
逻辑
纵轴
横轴
报告
文本
系统为您推荐了相关专利信息
建构方法
个性化学习路径
学生
蒙特卡洛树
动态数据集
生成测试用例
大语言模型
生成技术
机器可读程序
自然语言
数据访问权限
企业知识图谱
查询意图
大语言模型
自然语言
胶囊内窥镜
关键帧
报告自动生成方法
文本
视觉特征