基于强化学习的任务型对话策略学习方法与系统

正文

推荐专利

申请号：CN202511071737

申请日期：2025-08-01

公开号：CN120910212A

公开日期：2025-11-07

类型：发明专利

摘要

本发明属于智能任务型对话技术领域，具体涉及基于强化学习的任务型对话策略学习方法与系统，采用软演员评论家算法结合行为克隆，以及最大熵逆强化学习，缓解冷启动问题；其中，利用最大熵逆强化学习，计算奖励值，依据人类对话与模拟对话的最大化对数似然估计，精准推断对话中的用户目标；而通过逆强化学习从成功轨迹中提取潜在奖励函数，替代人工设计奖励，在优化策略时不仅追求累积奖励最大化，还鼓励策略的多样性和探索性，避免对话策略过早收敛到单一模式。

技术关键词

对话策略学习方法捕捉关键词追踪器正则化参数模拟器网络策略更新轨迹生成用户终端学习系统文本信号超参数模块算法

系统为您推荐了相关专利信息

一种用于电商平台的交互系统和装置

交互系统神经网络模型生成训练样本分类神经网络卷积模块

一种高速公路态势感知方法及系统

态势感知方法异常事件车流量数据长短期记忆网络车辆跟踪算法

一种基于先验约束的自监督面部动作表征学习方法

表征学习方法姿势重构面部动作单元纹理

一种基于半监督学习的直流充电桩健康状态评估方法

健康状态评估方法直流充电桩指标相关性分析健康状态评估体系多层前馈神经网络

一种手语学习进度跟踪与个性化推荐管理系统及方法

个性化学习路径推荐管理系统个性化推荐引擎学习方法资源

基于强化学习的任务型对话策略学习方法与系统

站点导航

APP 下载