摘要
本发明提供了一种基于自然语言的多风格强化学习策略控制方法及系统。首先在所需的环境中训练多风格强化学习策略,多风格强化学习策略基于元行为集合,每个元行为与对应的风格参数关联,风格参数代表执行该元行为的倾向性,每个训练时期开始时,随机采样一组风格参数,将风格参数和环境状态拼接后输入智能体,使用强化学习算法训练后得到有多种行为风格的策略;在推理时解析用户的自然语言,结合提示词将用户的自然语言转换为对应元行为的风格参数的数值,将转换得到的数值输入智能体,作为智能体的当前风格参数,即可执行用户指定的行为风格。使用本发明可以实现智能体高度多样化的行为表现,允许用户通过文本或语音调节每种行为风格的程度。
技术关键词
强化学习策略
风格
参数
大语言模型
强化学习算法
指令
控制系统
意图
自然语言转换
数值
样本
场景
代表
模块
概念
格式
文本
语音
系统为您推荐了相关专利信息
人脸生物特征
智慧门禁
认证控制方法
人脸识别特征
矩阵
改进型BP神经网络
夹杂物数量
硫化锰
统计方法
球形
运维决策方法
高压变压器
构建知识图谱
大语言模型
节点