摘要
本发明属于智能任务型对话技术领域,具体涉及基于强化学习的任务型对话策略学习方法与系统,采用软演员评论家算法结合行为克隆,以及最大熵逆强化学习,缓解冷启动问题;其中,利用最大熵逆强化学习,计算奖励值,依据人类对话与模拟对话的最大化对数似然估计,精准推断对话中的用户目标;而通过逆强化学习从成功轨迹中提取潜在奖励函数,替代人工设计奖励,在优化策略时不仅追求累积奖励最大化,还鼓励策略的多样性和探索性,避免对话策略过早收敛到单一模式。
技术关键词
对话策略
学习方法
捕捉关键词
追踪器
正则化参数
模拟器
网络
策略更新
轨迹
生成用户
终端
学习系统
文本
信号
超参数
模块
算法
系统为您推荐了相关专利信息
交互系统
神经网络模型
生成训练样本
分类神经网络
卷积模块
态势感知方法
异常事件
车流量数据
长短期记忆网络
车辆跟踪算法
健康状态评估方法
直流充电桩
指标相关性分析
健康状态评估体系
多层前馈神经网络
个性化学习路径
推荐管理系统
个性化推荐引擎
学习方法
资源