摘要
本发明涉及自然语言处理技术领域,公开一种基于大语言模型的多轮对话优化方法,本发明在大语言模型根据用户输入的当前问题输出答案前,先将用户输入的当前问题在记忆列表中进行问题偏好对齐、答案偏好对齐、首选项偏好对齐,结合自注意力奖励迭代函数和基于策略梯度的模型更新规则,找到当前问题的优选匹配历史问题和优选匹配历史答案,形成当前问题的最优历史问答对,能够克服大语言模型的上下文窗口限制并为大语言模型提供精准的历史记忆,大大提高大语言模型在多轮对话中的上下文理解能力和推理能力,使其能够准确地输出连贯且高质量的答案,提高多轮对话的质量,保证用户体验。
技术关键词
大语言模型
多轮对话
答案
记忆
列表
表达式
模型更新
注意力
标签
非暂态计算机可读存储介质
sigmoid函数
对齐模块
策略
处理器
样本
参数
自然语言
输出模块
存储器
电子设备
系统为您推荐了相关专利信息
分析系统
特征工程
时序数据分析方法
数据采集模块
分类识别模型
回声状态网络
攻击预测方法
搜索算法
非线性
矩阵