一种基于多步强化模拟的生成式对话优化方法及系统

正文

推荐专利

申请号：CN202510983975

申请日期：2025-07-17

公开号：CN121009981A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于多步强化模拟的生成式对话优化方法及系统，方法包括：利用基础对话模型，基于当前对话历史生成若干条候选回复；使用用户模拟器，对每条候选回复生成对话链；对每个对话链计算奖励，选择奖励值最高的K个对话链作为优质样本，以奖励值最低的对话链作为负样本；通过对比学习与强化学习的方法，利用优质样本和负样本更新基础对话模型的参数，得到训练好的基础对话模型作为客服模型；所述客服模型根据用户输入语句生成回复。本发明能够融合多轮对话动态规划、医疗场景适配性优化与高效策略探索的对话生成方法，在确保合规性的同时，实现用户信任建立与业务目标达成的双重优化。

技术关键词

模拟器样本生成用户基础客服 Sigmoid函数对话生成方法医疗场景参数多轮对话语句合规性数学算法动态模块意图规划专业策略

系统为您推荐了相关专利信息

一种检测血清代谢物组的试剂在制备鼻咽癌诊断和/或预后产品中的应用

鼻咽癌诊断血清鼻咽癌患者预后评估试剂盒诊断试剂盒

基于大语言模型和深度分水岭算法的细胞图像分割方法

细胞图像分割方法分水岭算法大语言模型实例分割语义

黑盒骨骼行为识别对抗攻击方法、装置、设备及存储介质

关键骨骼节点样本扰动方法语义掩码矩阵

抗弯曲光子晶体光纤的智能设计、分析方法及系统

光子晶体光纤弯曲智能设计方法机器学习算法参数

一种基于文本描述的多目标对抗攻击方法与装置

语义特征文本编码器图像编码器样本模块

一种基于多步强化模拟的生成式对话优化方法及系统

站点导航

APP 下载