基于强化学习的任务型对话策略学习方法与系统

AITNT
正文
推荐专利
基于强化学习的任务型对话策略学习方法与系统
申请号:CN202511071737
申请日期:2025-08-01
公开号:CN120910212A
公开日期:2025-11-07
类型:发明专利
摘要
本发明属于智能任务型对话技术领域,具体涉及基于强化学习的任务型对话策略学习方法与系统,采用软演员评论家算法结合行为克隆,以及最大熵逆强化学习,缓解冷启动问题;其中,利用最大熵逆强化学习,计算奖励值,依据人类对话与模拟对话的最大化对数似然估计,精准推断对话中的用户目标;而通过逆强化学习从成功轨迹中提取潜在奖励函数,替代人工设计奖励,在优化策略时不仅追求累积奖励最大化,还鼓励策略的多样性和探索性,避免对话策略过早收敛到单一模式。
技术关键词
对话策略 学习方法 捕捉关键词 追踪器 正则化参数 模拟器 网络 策略更新 轨迹 生成用户 终端 学习系统 文本 信号 超参数 模块 算法
系统为您推荐了相关专利信息
1
一种用于电商平台的交互系统和装置
交互系统 神经网络模型 生成训练样本 分类神经网络 卷积模块
2
一种高速公路态势感知方法及系统
态势感知方法 异常事件 车流量数据 长短期记忆网络 车辆跟踪算法
3
一种基于先验约束的自监督面部动作表征学习方法
表征学习方法 姿势 重构 面部动作单元 纹理
4
一种基于半监督学习的直流充电桩健康状态评估方法
健康状态评估方法 直流充电桩 指标相关性分析 健康状态评估体系 多层前馈神经网络
5
一种手语学习进度跟踪与个性化推荐管理系统及方法
个性化学习路径 推荐管理系统 个性化推荐引擎 学习方法 资源
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号