摘要
本发明公开一种面向语言模型智能问答系统的多目标优化方法,使语言模型能够在不完备信息下,同时最大化用户体验和最小化交互次数以进行在线学习与决策任务。语言模型智能问答系统由多个语言生成模型和一个决策模型组成,语言生成模型负责生成若干个备选回答,决策模型负责选取其中两个回答作为反馈。首先设计初始策略以探索语言生成模型性能,使用用户反馈对语言生成模型进行简单排序。对于决策模型的设计,使用一种自适应于动态排序的决策方法,辅以逐对淘汰的方式,逐渐排除不符合用户需求的语言生成模型。与现有的问答模型优化技术相比,本发明不仅能够同时保证尽可能利用最符合用户需求的语言生成模型来提供答案,以最大化用户体验,还能够额外保证最小化寻得该语言生成模型所需的交互次数。
技术关键词
智能问答系统
模型更新
计算机设备
问答模型
决策方法
处理器
可读存储介质
存储器
答案
指令
在线
策略
矩阵
动态